1 个不稳定版本
0.1.0 | 2022年12月5日 |
---|
#3 在 #powerpoint
209 每月下载量
1.5MB
191 行
Textract
Textract 是一个 Rust 库,用于从各种文件类型中提取文本。支持的文件扩展名。
txt odf ods odt pptx xlsx pdf
安装和使用;
使用 cargo 安装 textract。
// there is a pdf file at ./tmp.pdf
let content = textract::extract("tmp.pdf","pdf").unwrap;
// content contains raw text in pdf. do whatever you want.
main.rs 包含 textract 库的使用示例。
命令行
命令行很简单。
textract tmp.pdf pdf
路线图。
这个库处于beta阶段,仅支持少量文件类型,但 Textract 支持的文件类型将不断增加。因为该项目是 的一部分。
- 支持压缩文件和 tar 存档
- 使用 lib magic 识别文件类型。
- 所有类型的文档文件。
依赖关系
~15–22MB
~342K SLoC