1个不稳定版本
使用旧的Rust 2015
0.1.2 | 2022年12月5日 |
---|
#10 in #docx
216 次每月下载
在 textract 中使用
1.5MB
540 行
文档文件文本提取器
一个简单的Rust库,可以从特定文档格式(如Word文档(docx))中提取可读文本。目前仅支持几种格式,其他格式即将推出。
支持的文档
- Microsoft Word (docx)
- Microsoft Excel (xlsx)
- Microsoft Power Point (pptx)
- OpenOffice Writer (odt)
- OpenOffice Spreadsheet (ods)
- OpenDocument Presentation (odp)
用法
let mut file = Docx::open("samples/sample.docx").unwrap();
let mut isi = String::new();
let _ = file.read_to_string(&mut isi);
println!("CONTENT:");
println!("----------BEGIN----------");
println!("{}", isi);
println!("----------EOF----------");
测试
$ cargo test
或运行示例
$ cargo run --example readdocx data/sample.docx
[] Robin Sy.
依赖项
~10MB
~255K SLoC