1个不稳定版本
0.1.0 | 2024年5月14日 |
---|
#1789 在 解析器实现
24KB
522 行
hocr-parser
hOCR格式的解析器,"一个用于表示文档布局分析和OCR结果的HTML子集的开放标准"。
设计
此解析器使用roxmltree
来解析XHTML。它简化了通过HOCR
和Element
结构体以及它们的"借用"对应物访问hOCR数据,从而避免了为属性名称分配。
解析器不会验证文件是否遵循hOCR规范。它检查所需元数据和hOCR元素及属性名称的有效性,但不检查属性值。
许可证
许可方式为以下之一
任选其一。
贡献
除非你明确声明,否则任何有意提交以包含在你的作品中的贡献,根据Apache-2.0许可证的定义,应以上述双重许可方式,不附加任何额外的条款或条件。
依赖项
~0.4–1MB
~23K SLoC