#web-crawler #web-scraping #spider #spider-cli

app spider_worker

作为工作者或代理,最快的高速网页爬虫

495个稳定版本

2.0.9 2024年8月21日
1.99.37 2024年8月14日
1.99.13 2024年7月31日
1.89.5 2024年3月30日
1.26.7 2023年3月22日

579 in Web编程

Download history 3154/week @ 2024-05-02 1039/week @ 2024-05-09 1641/week @ 2024-05-16 1413/week @ 2024-05-23 1865/week @ 2024-05-30 798/week @ 2024-06-06 504/week @ 2024-06-13 384/week @ 2024-06-20 324/week @ 2024-06-27 325/week @ 2024-07-04 813/week @ 2024-07-11 635/week @ 2024-07-18 512/week @ 2024-07-25 968/week @ 2024-08-01 1752/week @ 2024-08-08 902/week @ 2024-08-15

4,167每月下载量

MIT 许可证

595KB
12K SLoC

Spider Worker

crate version

用于去中心化爬虫提升的工作者。

依赖

此项目依赖于spider crate.

使用

工作者默认在端口3030上启动,html收集的刮削器在端口3031上。

SPIDER_WORKER_PORT=3030 SPIDER_WORKER_SCRAPER_PORT=3031cargo run

特性标志

  1. scrape - 当需要html时,使用标志运行实例。需要客户端上的spider特性标志匹配才能启动。这也将实例启动在端口3031上。
  2. full_resources - 启动基本工作者以收集链接和刮削器。
  3. tls - 启用tls支持,使用环境变量SPIDER_WORKER_CERT_PATH用于.pem文件和SPIDER_WORKER_KEY_PATH用于您的.rsa文件。默认为/cert.pem/key.rsa

端口

默认情况下,实例在端口3030上运行,使用SPIDER_WORKER_PORT调整端口。当启用时,刮削器在端口3031上运行,使用SPIDER_WORKER_SCRAPER_PORT调整端口。

依赖

~17–31MB
~515K SLoC