#product-os #web-crawler #browser #headless #automation #url #ecosystem

product-os-crawler

产品 OS : Crawler 是一个基于浏览器的爬虫,利用产品 OS : Browser 进行高级 URL 爬取,利用无头浏览和自动化。

7 个版本

0.0.11 2024年6月12日
0.0.6 2023年9月1日
0.0.5 2023年8月28日

#1030 in 网页编程

AGPL-3.0-only

97KB
1K SLoC

产品 OS : Crawler

产品 OS : Crawler 是一个基于浏览器的爬虫,利用产品 OS : Browser 进行高级 URL 爬取,利用无头浏览和自动化。

什么是产品 OS?

产品 OS 是一系列包的集合,提供了不同的工具和特性,可以协同工作以更容易地为 Rust 生态系统构建产品。

安装

使用 Rust 包管理器 cargo 安装产品 OS : Crawler。

cargo add product-os-crawler

或向你的 cargo.toml 中的 [packages] 部分添加产品 OS : Crawler。

product-os-crawler = { version = "0.0.11", features = [], default-features = true, optional = false }

特性

产品 OS Crawler 支持以下特性,通过利用现有的 Rust 库进行爬取和执行指令,包括

  • 基本爬取功能,具有回退规则
  • 重访逻辑和完整配置以进行调整
  • 评分系统完全可配置,以确定内容的值
  • 能够通过处理器将内容传递给索引和存储服务
// Feature samples TODO

使用方法

// Examples TODO

贡献

目前没有提供贡献,但很快将在公共仓库上提供。

许可证

GNU AGPLv3

依赖关系

~51–83MB
~2M SLoC