#pdf #pdf2text #pdf2txt #text

pdf-extract

一个从 PDF 文件中提取内容的库

33 个版本

0.7.7 2024年5月10日
0.7.5 2024年4月2日
0.7.4 2024年1月17日
0.7.2 2023年9月8日
0.3.0 2018年2月5日

#103文本处理

Download history 1365/week @ 2024-05-02 1402/week @ 2024-05-09 1200/week @ 2024-05-16 1080/week @ 2024-05-23 1217/week @ 2024-05-30 1344/week @ 2024-06-06 1173/week @ 2024-06-13 1204/week @ 2024-06-20 1216/week @ 2024-06-27 1084/week @ 2024-07-04 1803/week @ 2024-07-11 1482/week @ 2024-07-18 1784/week @ 2024-07-25 1566/week @ 2024-08-01 1654/week @ 2024-08-08 1485/week @ 2024-08-15

6,720 每月下载量
用于 26 个 crates (17 直接)

MIT 许可证

350KB
9K SLoC

pdf-extract

Build Status crates.io Documentation

一个用于从 PDF 文件中提取内容的 Rust 库。

let bytes = std::fs::read("tests/docs/simple.pdf").unwrap();
let out = pdf_extract::extract_text_from_mem(&bytes).unwrap();
assert!(out.contains("This is a small demonstration"));

另请参阅

非 PDF 专用

依赖项

~17MB
~262K SLoC