#web-scraping #dom #scraping #javascript #crawler #parser #extract

jsdom

用于网页爬取的Rust JavaScript DOM解析器

10个版本

0.0.11-alpha.12023年6月14日
0.0.10 2023年6月3日
0.0.9 2023年5月16日

#2226 in Web编程

28次每月下载

MIT许可

10KB
121

jsdom

为Rust构建的用于网页爬取的快速JavaScript DOM解析器。

cargo添加jsdom

use std::collections::HashSet;
use jsdom::extract::extract_links;

const SCRIPT: &str = r###"
var ele = document.createElement('a');
ele.href = 'https://a11ywatch.com';
"###;

#[test]
fn parse_links() {
    // build tree with elements created from the nodes todo
    let links: HashSet<String> = extract_links(SCRIPT);

    assert!(links.contains("https://a11ywatch.com"))
}

功能

此包将首先推出对网页爬取最重要的功能。

  1. hashbrown:启用hashbrown crate。
  2. tokio:启用tokio流式处理工具。

阶段0.1

简介阶段可以处理语句和表达式中创建的元素。

依赖关系

~1.7–9MB
~64K SLoC