4 个版本

0.2.1 2024 年 1 月 10 日
0.2.0 2024 年 1 月 9 日
0.1.2 2024 年 1 月 5 日
0.1.1 2024 年 1 月 5 日
0.1.0 2024 年 1 月 5 日

#spider 中排名 #10

自定义许可证

27KB
184

Crawl

Rust 爬取

演示


fn main() -> anyhow::Result<()> {
    let download = Arc::new(Downloader::new(
        String::from(r"data/book1"),
        String::from("https://doc.rust-lang.net.cn/book/")
    ));
    let url = String::from("https://doc.rust-lang.net.cn/book/index.html");
    let manager = Arc::new(Mutex::new(Manager{datas:Vec::new(), added_urls:HashSet::from([url.clone()])}));
    download.start_url(url, false, Arc::new(Flag::Page))?;
    for _ in 0..16{
        let res_arg = get_res_thread_arg(&download);
        let r = Arc::clone(&manager);
        thread::spawn(move || res_run(res_arg, r));
    }
    start_crawl(&download, 16);
    download.wait_finish();
    {
        let m = manager.lock().unwrap();
        println!("finish {}", m.datas.len());
        for item in m.datas.iter(){
            println!("{} {}", item.url, item.title);
        }
    }
    Ok(())
}

依赖项

~3–18MB
~229K SLoC