在 Web 编程中排名 1422

每月下载量 479

Apache-2.0 OR MIT

190KB
4.5K SLoC

scrapelect

scrapelect 是一种受 CSS 启发的网络抓取语言，可以将网页转换为结构化的 JSON 数据。使用 CSS 选择器选择元素，对网页中的数据进行筛选以提取和修改，并得到结构化、机器可读、可互操作的输出格式。

安装

安装 Rust 工具链。使用 cargo，运行

$ cargo install scrapelect

以安装 scrapelect 解释器。

将 scrapelect 程序写入 .scrp 文件。该语言的相关文档可以在 scrapelect 书籍中找到。

快速示例，title.scrp，检索维基百科文章的标题

title: .mw-page-title-main {
  content: $element | text();
};

使用要抓取网页的 URL 运行 scrp

$ scrapelect title.scrp "https://en.wikipedia.org/wiki/Cat"

它将输出

{
  "title": {
    "content": "Cat"
  }
}

scrapelect 可在 MIT 或 Apache 2 许可证下使用，由您选择。这些许可证的副本包含在根目录的 LICENSE-MIT 和 LICENSE-APACHE 中。

scrapelect: 爬取 + 选择，也 -lect

~11–24MB
~358K SLoC