#text-document #extract #format #docx #word #readable #coming

dotext_ed8fc7b

一个简单的Rust库,可以从特定文档格式(如Word文档(docx))中提取可读文本。目前仅支持几种格式,其他格式即将推出。

1个不稳定版本

使用旧的Rust 2015

0.1.2 2022年12月5日

#10 in #docx

Download history 124/week @ 2024-04-05 136/week @ 2024-04-12 59/week @ 2024-04-19 88/week @ 2024-04-26 49/week @ 2024-05-03 60/week @ 2024-05-10 89/week @ 2024-05-17 56/week @ 2024-05-24 61/week @ 2024-05-31 49/week @ 2024-06-07 70/week @ 2024-06-14 63/week @ 2024-06-21 29/week @ 2024-06-28 60/week @ 2024-07-05 88/week @ 2024-07-12 37/week @ 2024-07-19

216 次每月下载
textract 中使用

MIT 许可证

1.5MB
540

文档文件文本提取器

Build Status Build status Crates.io

一个简单的Rust库,可以从特定文档格式(如Word文档(docx))中提取可读文本。目前仅支持几种格式,其他格式即将推出。

支持的文档

  • Microsoft Word (docx)
  • Microsoft Excel (xlsx)
  • Microsoft Power Point (pptx)
  • OpenOffice Writer (odt)
  • OpenOffice Spreadsheet (ods)
  • OpenDocument Presentation (odp)
  • PDF

用法

let mut file = Docx::open("samples/sample.docx").unwrap();
let mut isi = String::new();
let _ = file.read_to_string(&mut isi);
println!("CONTENT:");
println!("----------BEGIN----------");
println!("{}", isi);
println!("----------EOF----------");

测试

$ cargo test

或运行示例

$ cargo run --example readdocx data/sample.docx

[] Robin Sy.

依赖项

~10MB
~255K SLoC