#pdf #image #conversion #encoding

pdf_process

使用 poppler 渲染和从 PDF 文件中提取元数据/文本的库

3 个版本 (破坏性更新)

新功能 0.2.0 2024 年 8 月 20 日
0.1.0 2024 年 8 月 11 日
0.0.0 2024 年 8 月 5 日

404图像

Download history 105/week @ 2024-08-03 115/week @ 2024-08-10 134/week @ 2024-08-17

每月 354 次下载

MIT 许可证

57KB
976

PDF Process

Rust 处理 PDF 文件的库,包装了由 Poppler 提供的 CLI 工具,特别是 pdftotext(文本提取),pdftocairo(图像渲染),pdfinfo(提取基本详情)

提供以下功能

  • 提取 PDF 文本内容
  • 将 PDF 文件渲染为图像(PNG/JPEG/TIFF)
  • 基本的 PDF 详情(加密,页面数,主题,标题,创建者,作者等..)

先决条件

在 Linux 主机下开发的库。不支持 Windows

需要在您的系统上安装 Plopper 并将其工具添加到您的 PATH。许多发行版都会预先安装它。您可以使用 pdfinfo - 命令检查是否已安装,它应生成类似以下输出的结果

pdfinfo version 24.02.0
Copyright 2005-2024 The Poppler Developers - http://poppler.freedesktop.org
Copyright 1996-2011, 2022 Glyph & Cog, LLC,

否则,您可以使用以下命令之一进行安装

Fedora:

sudo dnf install poppler-utils

根据您的特定 Linux 发行版调整上述命令

安装

使用 cargo 安装

cargo add pdf_process

或将以下内容添加到您的 Cargo.toml 文件的 [dependencies] 部分

pdf_process = "0.1.0"

测试

测试:

  • pdftotext 版本 24.02.0
  • pdftocairo 版本 24.02.0
  • pdfinfo 版本 24.02.0

依赖关系

~6–15MB
~182K SLoC