1个不稳定版本

0.1.0 2024年5月14日

#1789解析器实现


用于 layoutparser-ort

MIT/Apache

24KB
522

hocr-parser

hOCR格式的解析器,"一个用于表示文档布局分析和OCR结果的HTML子集的开放标准"。

设计

此解析器使用roxmltree来解析XHTML。它简化了通过HOCRElement结构体以及它们的"借用"对应物访问hOCR数据,从而避免了为属性名称分配。

解析器不会验证文件是否遵循hOCR规范。它检查所需元数据和hOCR元素及属性名称的有效性,但不检查属性值。

许可证

许可方式为以下之一

任选其一。

贡献

除非你明确声明,否则任何有意提交以包含在你的作品中的贡献,根据Apache-2.0许可证的定义,应以上述双重许可方式,不附加任何额外的条款或条件。

依赖项

~0.4–1MB
~23K SLoC