1 个不稳定版本

0.1.0 2023年12月22日

#17 in #sitemap


用于 sws-lua

MIT/Apache

30KB
781

网站地图Web抓取器

网站地图Web抓取器(sws)是一个简单、灵活且性能优良的网页抓取工具。

它由一个用Rust编写的CLI组成,用于爬取网页并执行Lua JIT脚本以抓取它们,将结果输出到CSV文件。

sws crawl --script examples/fandom_mmh7.lua -o result.csv

有关更多详细信息,请查看文档


lib.rs:

具有插件式抓取逻辑的Web爬虫。

主函数crawl_site爬取并抓取网页。它通过CrawlerConfigScrapable实现进行配置。后者定义了用于爬取的Seed以及抓取逻辑。请注意,支持robots.txt种子,并通过texting_robots::RobotCrawlingContextScrapingContext中公开。

依赖项

~11–27MB
~385K SLoC