#spider #web-crawler

spider_utils

用于 Spider 网络爬虫的实用工具

9 个版本 (1 个稳定版)

2.0.6 2024 年 8 月 21 日
0.2.3 2024 年 8 月 20 日
0.1.3 2024 年 7 月 24 日

#2126 in 网络编程

Download history 218/week @ 2024-07-19 139/week @ 2024-07-26 24/week @ 2024-08-02 117/week @ 2024-08-09 529/week @ 2024-08-16

884 每月下载量

MIT 许可证

580KB
12K SLoC

spider_utils

用于帮助充分发挥 spider 作用的实用工具

CSS 提取

use spider::{
    hashbrown::HashMap,
    packages::scraper::Selector,
};
use spider_utils::{QueryCSSMap, QueryCSSSelectSet, build_selectors, css_query_select_map_streamed};

async fn css_query_selector_extract() {
    let map = QueryCSSMap::from([(
        "list",
        QueryCSSSelectSet::from([".list", ".sub-list"]),
    )]);
    let data = css_query_select_map_streamed(
        r#"<html>
            <body>
                <ul class="list"><li>First</li></ul>
                <ul class="sub-list"><li>Second</li></ul>
            </body>
        </html>"#,
        &build_selectors(map),
    )
    .await;

    println!("{:?}", data);
    // {"list": ["First", "Second"]}
}

特性

您可以使用特性标志 indexset 来指定 CSS 提取的顺序。

依赖

~11–25MB
~402K SLoC