#download #book #content #viewing #hosted #offline #google

bin+lib google-book-scraper

用于下载 Google Books 上托管的书籍内容以便离线查看的工具和库

1 个不稳定版本

新增 0.1.1 2024 年 8 月 20 日
0.1.0 2024 年 8 月 17 日

#401文本处理

Download history 251/week @ 2024-08-14

每月 251 次下载

MIT AND Apache-2.0

98KB
588

google-book-scraper

目的

这是一个下载由 Google Books 托管的杂志存档内容以便离线查看的工具。它支持转换为 PDF 和/或 CBZ 格式,如果可用,PDF 将保留 Google 提供的目录作为文档大纲。

我想创建一个他们托管的出版物的个人存档,但我不满意我找到的任何现有抓取器的功能,所以我创建了自己的。

免责声明

此工具不旨在违反版权法,仅供个人使用。它仅通过使用与在浏览器中查看数据时相同的 API 调用来自动检索公开可用的数据。检索到的数据的版权属于其各自的拥有者,本人不对此工具检索到的数据的任何非法重新分发负责。

使用此工具风险自负。

基本设置和使用

发布部分提供了 Windows x64 版本。如果您不在 Windows 上,并且/或者希望从源代码构建并且已设置Rust 开发环境,您可以运行

git clone https://github.com/shloop/google-book-scraper
cd google-book-scraper
cargo build --release

(编译的可执行文件将位于 google-book-scraper/target/release.)

要将单期杂志作为 PDF 下载到当前目录,请提供期号的 关于 页面的 URL。如果您在阅读页面上,请单击左侧列中的 关于此杂志 以访问 关于 页面。

gbscraper <URL>

批量下载

您可以使用带有 -m--download-mode 的下载模式选项,并指定值为 period 来下载 URL 选定期间的全部期号(通常是一年或几年的范围),或指定值为 full 来下载所有可用的期号。如果指定 full,提供的 URL 可以是杂志任何期号的 关于 页面。

当下载大量问题时,建议使用归档选项(-a--archive)来跟踪已下载的问题,以便在操作中断后需要重新启动时跳过。

例如

gbscraper -m full -a archive.txt <URL>

所有选项

Usage: gbscraper [OPTIONS] <URL>

Arguments:
  <URL>  URL of book to download

Options:
  -o, --target-dir <DIRECTORY>  Directory to save issue(s) to [default: .]
  -k, --keep-images             If set, downloaded images will not be deleted after conversion
  -f, --format <FORMAT>...      Format(s) to convert downloaded images to [default: pdf] [possible values: none, pdf, cbz, all]
  -m, --download-mode <MODE>    Which issues to download from URL [default: single] [possible values: single, period, full]
  -a, --archive <ARCHIVE>       Don't include books in provided file. File will be updated with books downloaded
  -h, --help                    Print help
  -V, --version                 Print version

依赖项

~29–42MB
~602K SLoC