1 个不稳定版本
新增 0.1.1 | 2024 年 8 月 20 日 |
---|---|
0.1.0 |
|
#401 在 文本处理
每月 251 次下载
98KB
588 行
google-book-scraper
目的
这是一个下载由 Google Books 托管的杂志存档内容以便离线查看的工具。它支持转换为 PDF 和/或 CBZ 格式,如果可用,PDF 将保留 Google 提供的目录作为文档大纲。
我想创建一个他们托管的出版物的个人存档,但我不满意我找到的任何现有抓取器的功能,所以我创建了自己的。
免责声明
此工具不旨在违反版权法,仅供个人使用。它仅通过使用与在浏览器中查看数据时相同的 API 调用来自动检索公开可用的数据。检索到的数据的版权属于其各自的拥有者,本人不对此工具检索到的数据的任何非法重新分发负责。
使用此工具风险自负。
基本设置和使用
在发布部分提供了 Windows x64 版本。如果您不在 Windows 上,并且/或者希望从源代码构建并且已设置Rust 开发环境,您可以运行
git clone https://github.com/shloop/google-book-scraper
cd google-book-scraper
cargo build --release
(编译的可执行文件将位于 google-book-scraper/target/release.)
要将单期杂志作为 PDF 下载到当前目录,请提供期号的 关于 页面的 URL。如果您在阅读页面上,请单击左侧列中的 关于此杂志 以访问 关于 页面。
gbscraper <URL>
批量下载
您可以使用带有 -m
或 --download-mode
的下载模式选项,并指定值为 period
来下载 URL 选定期间的全部期号(通常是一年或几年的范围),或指定值为 full
来下载所有可用的期号。如果指定 full
,提供的 URL 可以是杂志任何期号的 关于 页面。
当下载大量问题时,建议使用归档选项(-a
或 --archive
)来跟踪已下载的问题,以便在操作中断后需要重新启动时跳过。
例如
gbscraper -m full -a archive.txt <URL>
所有选项
Usage: gbscraper [OPTIONS] <URL>
Arguments:
<URL> URL of book to download
Options:
-o, --target-dir <DIRECTORY> Directory to save issue(s) to [default: .]
-k, --keep-images If set, downloaded images will not be deleted after conversion
-f, --format <FORMAT>... Format(s) to convert downloaded images to [default: pdf] [possible values: none, pdf, cbz, all]
-m, --download-mode <MODE> Which issues to download from URL [default: single] [possible values: single, period, full]
-a, --archive <ARCHIVE> Don't include books in provided file. File will be updated with books downloaded
-h, --help Print help
-V, --version Print version
依赖项
~29–42MB
~602K SLoC