1 个不稳定版本
| 0.1.0 | 2023年12月22日 |
|---|
#17 in #sitemap
用于 sws-lua
30KB
781 行
网站地图Web抓取器
网站地图Web抓取器(sws)是一个简单、灵活且性能优良的网页抓取工具。
它由一个用Rust编写的CLI组成,用于爬取网页并执行Lua JIT脚本以抓取它们,将结果输出到CSV文件。
sws crawl --script examples/fandom_mmh7.lua -o result.csv
有关更多详细信息,请查看文档。
lib.rs:
具有插件式抓取逻辑的Web爬虫。
主函数crawl_site爬取并抓取网页。它通过CrawlerConfig和Scrapable实现进行配置。后者定义了用于爬取的Seed以及抓取逻辑。请注意,支持robots.txt种子,并通过texting_robots::Robot在CrawlingContext和ScrapingContext中公开。
依赖项
~11–27MB
~385K SLoC