#readability #port #content #extractor #fork #scrape #product

readability-fork

基于 'readability' crate 的临时分支,依赖项已更新

3 个版本

0.2.2 2021 年 1 月 6 日
0.2.1 2020 年 5 月 25 日
0.2.0 2020 年 5 月 25 日

#21 in #readability

每月 31 次下载

MIT 许可协议

26KB
651 行代码(不含注释)

readability-rs

Build Status

readability-rs 是一个用于提取网页主要可读内容的库。这是 arc90 的 readability 项目的 Rust 版本。受 kingwkb/readability 启发。

如何使用

  • 在 Cargo.toml 中添加 readability 依赖项
[dependencies]
readability = "^0"
  • 然后,如下使用

use readability::extractor;

fn main() {
  match extractor::scrape("https://spincoaster.com/chromeo-juice") {
      Ok(product) => {
          println!("------- html ------");
          println!("{}", product.content);
          println!("---- plain text ---");
          println!("{}", product.text);
      },
      Err(_) => println!("error occured"),
  }
}

演示

访问 演示页面

许可证

MIT

依赖项

~8–22MB
~348K SLoC