33 个版本
0.7.7 | 2024年5月10日 |
---|---|
0.7.5 | 2024年4月2日 |
0.7.4 | 2024年1月17日 |
0.7.2 | 2023年9月8日 |
0.3.0 | 2018年2月5日 |
#103 在 文本处理
6,720 每月下载量
用于 26 个 crates (17 直接)
350KB
9K SLoC
pdf-extract
一个用于从 PDF 文件中提取内容的 Rust 库。
let bytes = std::fs::read("tests/docs/simple.pdf").unwrap();
let out = pdf_extract::extract_text_from_mem(&bytes).unwrap();
assert!(out.contains("This is a small demonstration"));
另请参阅
- https://github.com/elacin/PDFExtract/
- https://github.com/euske/pdfminer
- https://github.com/CrossRef/pdfextract
- https://github.com/VikParuchuri/marker
- https://github.com/kermitt2/pdfalto 供 grobid 使用
非 PDF 专用
依赖项
~17MB
~262K SLoC