1 个不稳定版本
0.1.0 | 2023年12月22日 |
---|
#17 in #sitemap
用于 sws-lua
30KB
781 行
网站地图Web抓取器
网站地图Web抓取器(sws)是一个简单、灵活且性能优良的网页抓取工具。
它由一个用Rust编写的CLI组成,用于爬取网页并执行Lua JIT脚本以抓取它们,将结果输出到CSV文件。
sws crawl --script examples/fandom_mmh7.lua -o result.csv
有关更多详细信息,请查看文档。
lib.rs
:
具有插件式抓取逻辑的Web爬虫。
主函数crawl_site
爬取并抓取网页。它通过CrawlerConfig
和Scrapable
实现进行配置。后者定义了用于爬取的Seed
以及抓取逻辑。请注意,支持robots.txt种子,并通过texting_robots::Robot在CrawlingContext
和ScrapingContext
中公开。
依赖项
~11–27MB
~385K SLoC