#text #pdf-file #type #extract #ods #powerpoint #odt

bin+lib textract

Rust 库,用于从各种类型的文件中提取文本

1 个不稳定版本

0.1.0 2022年12月5日

#3#powerpoint

Download history • Rust 包仓库 13/week @ 2024-03-24 • Rust 包仓库 41/week @ 2024-03-31 • Rust 包仓库 223/week @ 2024-04-07 • Rust 包仓库 68/week @ 2024-04-14 • Rust 包仓库 61/week @ 2024-04-21 • Rust 包仓库 79/week @ 2024-04-28 • Rust 包仓库 32/week @ 2024-05-05 • Rust 包仓库 80/week @ 2024-05-12 • Rust 包仓库 66/week @ 2024-05-19 • Rust 包仓库 62/week @ 2024-05-26 • Rust 包仓库 48/week @ 2024-06-02 • Rust 包仓库 47/week @ 2024-06-09 • Rust 包仓库 71/week @ 2024-06-16 • Rust 包仓库 47/week @ 2024-06-23 • Rust 包仓库 25/week @ 2024-06-30 • Rust 包仓库 66/week @ 2024-07-07 • Rust 包仓库

209 每月下载量

MIT 许可证

1.5MB
191

Textract

Textract 是一个 Rust 库,用于从各种文件类型中提取文本。支持的文件扩展名。

txt odf ods odt pptx xlsx pdf

安装和使用;

使用 cargo 安装 textract。

// there is a pdf file at ./tmp.pdf
let content = textract::extract("tmp.pdf","pdf").unwrap;
// content contains raw text in pdf. do whatever you want. 

main.rs 包含 textract 库的使用示例。

命令行

命令行很简单。

textract tmp.pdf pdf

路线图。

这个库处于beta阶段,仅支持少量文件类型,但 Textract 支持的文件类型将不断增加。因为该项目是 achoz 的一部分。

  • 支持压缩文件和 tar 存档
  • 使用 lib magic 识别文件类型。
  • 所有类型的文档文件。

依赖关系

~15–22MB
~342K SLoC