1627 在 Web 编程

每月 456 次下载

MIT 许可证

29KB
494 行

捕获器

A gRPC Web 索引器，专为性能加速。

此项目能够高效地处理每秒数百万个页面。

入门

请确保已安装 Rust 或 Docker。

此项目需要您启动另一个 gRPC 服务器在端口 50051，遵循 proto 规范。

每个捕获都使用随机代理欺骗用户代理，索引器以 spider 作为基础。

您可以使用以下方法轻松安装

该 crate 可用于在 Rust 项目中设置 gRPC 服务器。

cargo install website_crawler

您还可以使用 a11ywatch/crawler 中的 docker 镜像。

将 CRAWLER_IMAGE 环境变量设置为 darwin-arm64 以获取本机 M1 Mac 图像。

crawler:
  container_name: crawler
  image: "a11ywatch/crawler:${CRAWLER_IMAGE:-latest}"
  ports:
    - 50055

我们还发布了 npm 包 @a11ywatch/crawler。

npm i @a11ywatch/crawler

在项目顶部导入后，开始 gRPC 服务器或直接运行 node。

import "@a11ywatch/crawler";

这是一个基本示例，用于捕获网页，将 spider 添加到您的 Cargo.toml

[dependencies]
website_crawler = "0.9.4"

一个基本的示例也可以完成

一个终端运行服务器

cargo run --example server --release

另一个终端运行客户端/服务器

cargo run --example client --release

为了在本地构建 crawler >= 0.5.0，您需要 Protocol Buffers 编译器 protoc，以及 Protocol Buffers 资源文件。

proto 编译器需要是 v3 才能编译。Ubuntu 18+ 自动安装。

sudo apt update && sudo apt upgrade -y
sudo apt install -y protobuf-compiler libprotobuf-dev

sudo apk add protoc protobuf-dev

假设已经安装了Homebrew。（如果没有安装，请参阅Homebrew网站上的安装说明。）

brew install protobuf

该爬虫针对降低延迟进行了优化，并使用基于隔离的并发，因为它可以在几毫秒内处理超过10,000个页面。为了接收爬虫找到的链接，您需要将website.proto添加到您的服务器。这是必需的，因为每个请求都会创建一个线程。隔离上下文可以显著提高性能（防止共享资源/通信）。

如果您需要帮助实现接收页面或链接的gRPC服务器，请查看gRPC节点示例作为起点。

请在项目的根目录中检查许可证文件。

~20–38MB
~656K SLoC