#text #pdf-file #type #extract #ods #powerpoint #odt

bin+lib textract

Rust 库,用于从各种类型的文件中提取文本

1 个不稳定版本

0.1.0 2022年12月5日

#3#powerpoint

Download history 13/week @ 2024-03-24 41/week @ 2024-03-31 223/week @ 2024-04-07 68/week @ 2024-04-14 61/week @ 2024-04-21 79/week @ 2024-04-28 32/week @ 2024-05-05 80/week @ 2024-05-12 66/week @ 2024-05-19 62/week @ 2024-05-26 48/week @ 2024-06-02 47/week @ 2024-06-09 71/week @ 2024-06-16 47/week @ 2024-06-23 25/week @ 2024-06-30 66/week @ 2024-07-07

209 每月下载量

MIT 许可证

1.5MB
191

Textract

Textract 是一个 Rust 库,用于从各种文件类型中提取文本。支持的文件扩展名。

txt odf ods odt pptx xlsx pdf

安装和使用;

使用 cargo 安装 textract。

// there is a pdf file at ./tmp.pdf
let content = textract::extract("tmp.pdf","pdf").unwrap;
// content contains raw text in pdf. do whatever you want. 

main.rs 包含 textract 库的使用示例。

命令行

命令行很简单。

textract tmp.pdf pdf

路线图。

这个库处于beta阶段,仅支持少量文件类型,但 Textract 支持的文件类型将不断增加。因为该项目是 achoz 的一部分。

  • 支持压缩文件和 tar 存档
  • 使用 lib magic 识别文件类型。
  • 所有类型的文档文件。

依赖关系

~15–22MB
~342K SLoC