653个稳定版本
新 2.0.9 | 2024年8月21日 |
---|---|
1.99.37 | 2024年8月14日 |
1.99.13 | 2024年7月31日 |
1.89.5 | 2024年3月30日 |
1.10.7 | 2022年7月27日 |
#1471 in Web编程
4,021次每月下载
595KB
12K SLoC
Spider CLI
一个快速的命令行蜘蛛或爬虫。
依赖关系
在Linux上
- OpenSSL 1.0.1, 1.0.2, 1.1.0或1.1.1
注意:您需要安装 pkg-config
,否则 cargo 不会识别 openssl
。
# On Ubuntu:
apt install pkg-config
使用方法
CLI是一个二进制文件,因此不要将其添加到您的 Cargo.toml
文件中。
# without headless
cargo install spider_cli
# with headless
cargo install -F chrome spider_cli
# with smart mode defaults to HTTP and Headless when needed
cargo install -F smart spider_cli
# with full resources not just web pages
cargo install -F full_resources spider_cli
Cli
以下命令也可以通过命令行运行以运行爬虫。如果您需要记录,请传递 -v
标志。
spider --url https://choosealicense.com crawl --output-links
爬取并将访问的所有链接输出到文件。
spider --url https://choosealicense.com crawl -o > spider_choosealicense.json
将所有html下载到本地目标位置。使用选项 -t
传递目标目标文件夹。
spider --url https://choosealicense.com download -t _temp_spider_downloads
设置爬取预算并仅爬取一个域名。
spider --url https://choosealicense.com --budget "*,1" crawl -o
设置爬取预算并仅允许匹配 /blog/ 路径的10个页面,并限制所有页面为100。
spider --url https://choosealicense.com --budget "*,100,/blog/,10" crawl -o
The fastest web crawler CLI written in Rust.
Usage: spider [OPTIONS] --url <DOMAIN> [COMMAND]
Commands:
crawl Crawl the website extracting links
scrape Scrape the website extracting html and links
download Download html markup to destination
help Print this message or the help of the given subcommand(s)
Options:
-d, --url <DOMAIN> Domain to crawl
-r, --respect-robots-txt Respect robots.txt file
-s, --subdomains Allow sub-domain crawling
-t, --tld Allow all tlds for domain
-v, --verbose Print page visited on standard output
-D, --delay <DELAY> Polite crawling delay in milli seconds
-b, --blacklist-url <BLACKLIST_URL> Comma seperated string list of pages to not crawl or regex with feature enabled
-u, --user-agent <USER_AGENT> User-Agent
-B, --budget <BUDGET> Crawl Budget
-h, --help Print help
-V, --version Print version
所有功能都可用,除了 Website 结构的 on_link_find_callback
配置选项。
依赖关系
~12–29MB
~493K SLoC