#text-document #extract #format #docx #word #readable #coming

dotext

一个简单的Rust库,用于从特定的文档格式(如Word文档(docx))中提取可读文本。目前仅支持几种格式,其他格式即将推出。

2 个版本

使用旧的Rust 2015

0.1.1 2017年12月3日
0.1.0 2017年12月3日

#12 in #coming

Download history 46/week @ 2024-03-13 52/week @ 2024-03-20 149/week @ 2024-03-27 121/week @ 2024-04-03 138/week @ 2024-04-10 38/week @ 2024-04-17 59/week @ 2024-04-24 55/week @ 2024-05-01 76/week @ 2024-05-08 80/week @ 2024-05-15 75/week @ 2024-05-22 80/week @ 2024-05-29 80/week @ 2024-06-05 73/week @ 2024-06-12 80/week @ 2024-06-19 100/week @ 2024-06-26

343 每月下载量

MIT 许可证

1.5MB
467

包含 (压缩文件, 98KB) samples/sample.xlsx

文档文件文本提取器

Build Status

一个简单的Rust库,用于从特定的文档格式(如Word文档(docx))中提取可读文本。目前仅支持几种格式,其他格式即将推出。

支持的文档

  • Microsoft Word (docx)
  • Microsoft Excel (xlsx)
  • Microsoft PowerPoint (pptx)
  • OpenOffice Writer (odt)
  • OpenDocument Presentation (odp)
  • PDF

使用说明

let mut file = Docx::open("data/sample.docx").unwrap();
let mut isi = String::new();
let _ = file.read_to_string(&mut isi);
println!("CONTENT:");
println!("----------BEGIN----------");
println!("{}", isi);
println!("----------EOF----------");

测试

$ cargo test

或运行示例

$ cargo run --example readdocx data/sample.docx

[] Robin Sy.

依赖关系

~10MB
~249K SLoC