#openai #openai-api #pdf #ocr #extract #api-key #perform

bin+lib gpt4ocr

使用 OpenAI 的 GPT4o 从 PDF 中提取结构化文本

3 个版本

0.3.2 2024年8月6日
0.3.1 2024年8月6日
0.3.0 2024年8月6日

文本处理 中排名 #771

Download history 281/week @ 2024-08-02 24/week @ 2024-08-09

每月下载量 305

MIT 许可证 MIT

345KB
281 行 代码

GPT4OCR

GPT4OCR 是一个简单的 OCR 工具,使用 GPT-4o 对 PDF 文件进行 OCR。需要包含以下变量的 .env 文件

OPENAI_API_KEY=your_openai_api_key

或者,您可以将 OPENAI_API_KEY 作为环境变量传递给 extract_json_from_pdf 函数。

操作系统

在 Linux 上运行。需要安装 poppler-utils。在 Ubuntu 上安装,请运行

sudo apt install poppler-utils
sudo apt install libssl-dev

重要观察

  • 时间随着生成的字段数量增加而增长。您可以在提示中指定 JSON 格式以限制生成的字段数量,这有助于减少所需的时间。
  • JSON 以 markdown 块的形式返回,因此您可以移除 "json""" 以获取 JSON 数据。这目前由库处理。

待定

  • 并行处理以加快处理速度。

依赖关系

~10–21MB
~324K SLoC