#text-document #extract #format #docx #word #readable #coming

dotext

一个简单的Rust库,用于从特定的文档格式(如Word文档(docx))中提取可读文本。目前仅支持几种格式,其他格式即将推出。

2 个版本

使用旧的Rust 2015

0.1.1 2017年12月3日
0.1.0 2017年12月3日

#12 in #coming

Download history • Rust 包仓库 46/week @ 2024-03-13 • Rust 包仓库 52/week @ 2024-03-20 • Rust 包仓库 149/week @ 2024-03-27 • Rust 包仓库 121/week @ 2024-04-03 • Rust 包仓库 138/week @ 2024-04-10 • Rust 包仓库 38/week @ 2024-04-17 • Rust 包仓库 59/week @ 2024-04-24 • Rust 包仓库 55/week @ 2024-05-01 • Rust 包仓库 76/week @ 2024-05-08 • Rust 包仓库 80/week @ 2024-05-15 • Rust 包仓库 75/week @ 2024-05-22 • Rust 包仓库 80/week @ 2024-05-29 • Rust 包仓库 80/week @ 2024-06-05 • Rust 包仓库 73/week @ 2024-06-12 • Rust 包仓库 80/week @ 2024-06-19 • Rust 包仓库 100/week @ 2024-06-26 • Rust 包仓库

343 每月下载量

MIT 许可证

1.5MB
467

包含 (压缩文件, 98KB) samples/sample.xlsx

文档文件文本提取器

Build Status

一个简单的Rust库,用于从特定的文档格式(如Word文档(docx))中提取可读文本。目前仅支持几种格式,其他格式即将推出。

支持的文档

  • Microsoft Word (docx)
  • Microsoft Excel (xlsx)
  • Microsoft PowerPoint (pptx)
  • OpenOffice Writer (odt)
  • OpenDocument Presentation (odp)
  • PDF

使用说明

let mut file = Docx::open("data/sample.docx").unwrap();
let mut isi = String::new();
let _ = file.read_to_string(&mut isi);
println!("CONTENT:");
println!("----------BEGIN----------");
println!("{}", isi);
println!("----------EOF----------");

测试

$ cargo test

或运行示例

$ cargo run --example readdocx data/sample.docx

[] Robin Sy.

依赖关系

~10MB
~249K SLoC