3 个不稳定版本
0.2.0 | 2022 年 4 月 28 日 |
---|---|
0.1.2 | 2021 年 7 月 8 日 |
0.1.0 | 2020 年 8 月 16 日 |
#1693 在 命令行工具
每月下载 21 次
48KB
930 行
吸星大法
吸星大法
允许您递归地访问并下载网站内容到您的磁盘。
特性
- 递归地清理整个网站
- 使用多线程
- 将网站内容写入您的磁盘
- 启用离线导航
- 提供随机延迟以避免 IP 禁用
- 在 CTRL-C 时保存应用程序状态以便稍后恢复
选项
USAGE:
suckit [FLAGS] [OPTIONS] <url>
FLAGS:
-c, --continue-on-error Flag to enable or disable exit on error
--dry-run Do everything without saving the files to the disk
-h, --help Prints help information
-V, --version Prints version information
-v, --verbose Enable more information regarding the scraping process
--visit-filter-is-download-filter Use the dowload filter in/exclude regexes for visiting as well
OPTIONS:
-a, --auth <auth>...
HTTP basic authentication credentials space-separated as "username password host". Can be repeated for
multiple credentials as "u1 p1 h1 u2 p2 h2"
--delay <delay>
Add a delay in seconds between downloads to reduce the likelihood of getting banned [default: 0]
-d, --depth <depth>
Maximum recursion depth to reach when visiting. Default is -1 (infinity) [default: -1]
-e, --exclude-download <exclude-download>
Regex filter to exclude saving pages that match this expression [default: $^]
--exclude-visit <exclude-visit>
Regex filter to exclude visiting pages that match this expression [default: $^]
--ext-depth <ext-depth>
Maximum recursion depth to reach when visiting external domains. Default is 0. -1 means infinity [default:
0]
-i, --include-download <include-download>
Regex filter to limit to only saving pages that match this expression [default: .*]
--include-visit <include-visit>
Regex filter to limit to only visiting pages that match this expression [default: .*]
-j, --jobs <jobs> Maximum number of threads to use concurrently [default: 1]
-o, --output <output> Output directory
--random-range <random-range>
Generate an extra random delay between downloads, from 0 to this number. This is added to the base delay
seconds [default: 0]
-t, --tries <tries> Maximum amount of retries on download failure [default: 20]
-u, --user-agent <user-agent> User agent to be used for sending requests [default: suckit]
ARGS:
<url> Entry point of the scraping
示例
一个常见的用例可能是以下这样
suckit http://books.toscrape.com -j 8 -o /path/to/downloaded/pages/
安装
目前,吸星大法
不在 Windows 上工作。
要安装它,您需要安装 Rust。
-
查看 这个链接 以获取安装 Rust 的说明。
-
如果您只想安装 suckit 可执行文件,您可以直接运行
cargo install --git https://github.com/skallwar/suckit
-
现在,您可以从任何位置使用
suckit
命令运行它。
Arch Linux
suckit
可以通过可用的 AUR 软件包 使用 AUR 辅助工具 进行安装。例如,
yay -S suckit
许可
吸星大法主要在 MIT 许可证和 Apache 许可证(版本 2.0)的条款下分发
请参阅LICENSE-APACHE和LICENSE-MIT获取详细信息。
依赖项
~14–31MB
~506K SLoC