1 个不稳定版本

新增 0.1.1	2024 年 8 月 20 日
0.1.0	~~2024 年 8 月 17 日~~

#401 在文本处理

每月 251 次下载

MIT AND Apache-2.0

98KB
588 行

google-book-scraper

目的

这是一个下载由 Google Books 托管的杂志存档内容以便离线查看的工具。它支持转换为 PDF 和/或 CBZ 格式，如果可用，PDF 将保留 Google 提供的目录作为文档大纲。

我想创建一个他们托管的出版物的个人存档，但我不满意我找到的任何现有抓取器的功能，所以我创建了自己的。

免责声明

此工具不旨在违反版权法，仅供个人使用。它仅通过使用与在浏览器中查看数据时相同的 API 调用来自动检索公开可用的数据。检索到的数据的版权属于其各自的拥有者，本人不对此工具检索到的数据的任何非法重新分发负责。

使用此工具风险自负。

基本设置和使用

在发布部分提供了 Windows x64 版本。如果您不在 Windows 上，并且/或者希望从源代码构建并且已设置Rust 开发环境，您可以运行

git clone https://github.com/shloop/google-book-scraper
cd google-book-scraper
cargo build --release

(编译的可执行文件将位于 google-book-scraper/target/release.)

要将单期杂志作为 PDF 下载到当前目录，请提供期号的关于页面的 URL。如果您在阅读页面上，请单击左侧列中的 关于此杂志 以访问关于页面。

gbscraper <URL>

批量下载

您可以使用带有 -m 或 --download-mode 的下载模式选项，并指定值为 period 来下载 URL 选定期间的全部期号（通常是一年或几年的范围），或指定值为 full 来下载所有可用的期号。如果指定 full，提供的 URL 可以是杂志任何期号的关于页面。

当下载大量问题时，建议使用归档选项（-a 或 --archive）来跟踪已下载的问题，以便在操作中断后需要重新启动时跳过。

例如

gbscraper -m full -a archive.txt <URL>

所有选项

Usage: gbscraper [OPTIONS] <URL>

Arguments:
  <URL>  URL of book to download

Options:
  -o, --target-dir <DIRECTORY>  Directory to save issue(s) to [default: .]
  -k, --keep-images             If set, downloaded images will not be deleted after conversion
  -f, --format <FORMAT>...      Format(s) to convert downloaded images to [default: pdf] [possible values: none, pdf, cbz, all]
  -m, --download-mode <MODE>    Which issues to download from URL [default: single] [possible values: single, period, full]
  -a, --archive <ARCHIVE>       Don't include books in provided file. File will be updated with books downloaded
  -h, --help                    Print help
  -V, --version                 Print version

依赖项

~29–42MB
~602K SLoC