2 个不稳定版本

0.2.0 2021 年 6 月 19 日
0.1.0 2021 年 6 月 18 日

#16 in #html-text

MIT 许可证

9KB
98

node2text Crates.io 许可证

一个用于从终端提取 HTML 中的文本的工具。

用法

# pipe in
curl -s 'https://en.wikipedia.org/wiki/Wiki' | node2text '#siteSub'
# Outputs: From Wikipedia, the free encyclopedia

# extract from path
node2text '#app.title' /path/to/file.html
# May or may not output depending on if selector is matched

动机

当我重装机器时,我想自动化我的安装过程。通常这涉及到从互联网上快速抓取片段并写入文件,这个工具旨在帮助脚本化这个过程。

深受 pup 启发。

演示

demo

安装

如果你已经安装了 Rust 工具链,node2textcrates.io 上可用,如果你还没有安装 Rust 工具链,请访问 官方网站 安装 Rust。

运行

cargo install node2text

注意

即使提供了 <path>,管道也会始终优先。

pup 的比较

node2text

  • 选择器完全是 CSS 选择器,没有 DSL
  • 接受 html,输出文本
  • 用 Rust 编程语言编写
  • pup 功能少
  • 输出未转义

pup

  • 选择器是 CSS 选择器加上 DSL
  • 接受 html,输出文本、json、html
  • 用 Go 编程语言编写
  • 具有许多功能,请访问他们的 GitHub 页面了解更多
  • 输出已转义

依赖关系

~5–11MB
~114K SLoC