1 个不稳定版本

0.2.4 2023年12月22日

#19#sitemap


用于 sws-lua

MIT/Apache

75KB
2K SLoC

网站地图网页抓取器

网站地图网页抓取器(sws)是一个简单、灵活且性能良好的网页抓取工具。

它由一个用 Rust 编写的 CLI 组成,用于爬取网页并执行一个 Lua JIT 脚本以抓取它们,并将结果输出到 CSV 文件。

sws crawl --script examples/fandom_mmh7.lua -o result.csv

查看 文档 了解更多详情。


lib.rs:

使用 CSS 选择器进行 HTML 解析和查询。

使用 sws-tree 部分移植自 scraper,sws-tree 使用 Rc 而不是带生命周期的引用。

依赖项

~2.8–8.5MB
~72K SLoC