653个稳定版本

2.0.9 2024年8月21日
1.99.37 2024年8月14日
1.99.13 2024年7月31日
1.89.5 2024年3月30日
1.10.7 2022年7月27日

#1471 in Web编程

Download history • Rust 包仓库 2704/week @ 2024-05-01 • Rust 包仓库 1409/week @ 2024-05-08 • Rust 包仓库 1399/week @ 2024-05-15 • Rust 包仓库 1258/week @ 2024-05-22 • Rust 包仓库 1755/week @ 2024-05-29 • Rust 包仓库 1231/week @ 2024-06-05 • Rust 包仓库 377/week @ 2024-06-12 • Rust 包仓库 355/week @ 2024-06-19 • Rust 包仓库 443/week @ 2024-06-26 • Rust 包仓库 317/week @ 2024-07-03 • Rust 包仓库 812/week @ 2024-07-10 • Rust 包仓库 715/week @ 2024-07-17 • Rust 包仓库 425/week @ 2024-07-24 • Rust 包仓库 819/week @ 2024-07-31 • Rust 包仓库 1727/week @ 2024-08-07 • Rust 包仓库 967/week @ 2024-08-14 • Rust 包仓库

4,021次每月下载

MIT 许可证

595KB
12K SLoC

Spider CLI

crate version

一个快速的命令行蜘蛛或爬虫。

依赖关系

在Linux上

  • OpenSSL 1.0.1, 1.0.2, 1.1.0或1.1.1

注意:您需要安装 pkg-config,否则 cargo 不会识别 openssl

# On Ubuntu:
apt install pkg-config

使用方法

CLI是一个二进制文件,因此不要将其添加到您的 Cargo.toml 文件中。

# without headless
cargo install spider_cli
# with headless
cargo install -F chrome spider_cli
# with smart mode defaults to HTTP and Headless when needed
cargo install -F smart spider_cli
# with full resources not just web pages
cargo install -F full_resources spider_cli

Cli

以下命令也可以通过命令行运行以运行爬虫。如果您需要记录,请传递 -v 标志。

spider --url https://choosealicense.com crawl --output-links

爬取并将访问的所有链接输出到文件。

spider --url https://choosealicense.com crawl -o > spider_choosealicense.json

将所有html下载到本地目标位置。使用选项 -t 传递目标目标文件夹。

spider --url https://choosealicense.com download -t _temp_spider_downloads

设置爬取预算并仅爬取一个域名。

spider --url https://choosealicense.com --budget "*,1" crawl -o

设置爬取预算并仅允许匹配 /blog/ 路径的10个页面,并限制所有页面为100。

spider --url https://choosealicense.com --budget "*,100,/blog/,10" crawl -o
The fastest web crawler CLI written in Rust.

Usage: spider [OPTIONS] --url <DOMAIN> [COMMAND]

Commands:
  crawl     Crawl the website extracting links
  scrape    Scrape the website extracting html and links
  download  Download html markup to destination
  help      Print this message or the help of the given subcommand(s)

Options:
  -d, --url <DOMAIN>                Domain to crawl
  -r, --respect-robots-txt             Respect robots.txt file
  -s, --subdomains                     Allow sub-domain crawling
  -t, --tld                            Allow all tlds for domain
  -v, --verbose                        Print page visited on standard output
  -D, --delay <DELAY>                  Polite crawling delay in milli seconds
  -b, --blacklist-url <BLACKLIST_URL>  Comma seperated string list of pages to not crawl or regex with feature enabled
  -u, --user-agent <USER_AGENT>        User-Agent
  -B, --budget <BUDGET>                Crawl Budget
  -h, --help                           Print help
  -V, --version                        Print version

所有功能都可用,除了 Website 结构的 on_link_find_callback 配置选项。

依赖关系

~12–29MB
~493K SLoC