#robots-txt #robots #robot #parser #spider #crawler

robotparser-fork

为Rust编写的robots.txt解析器

4个版本

0.11.0 2022年3月29日
0.10.8 2022年4月26日
0.10.5 2022年3月29日

#13 in #robots-txt

MIT 许可证

53KB
1K SLoC

robotparser-rs

GitHub Actions Coverage Status codecov Crates.io Dependency status

为Rust编写的robots.txt解析器。

安装

将其添加到您的 Cargo.toml

[dependencies]
robotparser = "0.11"

示例

use robotparser::http::RobotsTxtClient;
use robotparser::service::RobotsTxtService;
use reqwest::Client;
use url::Url;

fn main() {
    let client = Client::new();
    let robots_txt_url = Url::parse("https://pythonlang.cn/robots.txt").unwrap();
    let robots_txt = client.fetch_robots_txt(robots_txt_url.origin()).unwrap().get_result();
    let fetch_url = Url::parse("https://pythonlang.cn/robots.txt").unwrap();
    assert!(robots_txt.can_fetch("*", &fetch_url));
}

许可证

此作品根据MIT许可证发布。许可证的副本在LICENSE文件中提供。

依赖项

~3–7.5MB
~166K SLoC