2 个不稳定版本
0.2.0 | 2021 年 6 月 19 日 |
---|---|
0.1.0 | 2021 年 6 月 18 日 |
#16 in #html-text
9KB
98 行
node2text
一个用于从终端提取 HTML 中的文本的工具。
用法
# pipe in
curl -s 'https://en.wikipedia.org/wiki/Wiki' | node2text '#siteSub'
# Outputs: From Wikipedia, the free encyclopedia
# extract from path
node2text '#app.title' /path/to/file.html
# May or may not output depending on if selector is matched
动机
当我重装机器时,我想自动化我的安装过程。通常这涉及到从互联网上快速抓取片段并写入文件,这个工具旨在帮助脚本化这个过程。
深受 pup 启发。
演示
安装
如果你已经安装了 Rust 工具链,node2text
在 crates.io 上可用,如果你还没有安装 Rust 工具链,请访问 官方网站 安装 Rust。
运行
cargo install node2text
注意
即使提供了 <path>
,管道也会始终优先。
与 pup 的比较
node2text
- 选择器完全是 CSS 选择器,没有 DSL
- 接受 html,输出文本
- 用 Rust 编程语言编写
- 比
pup
功能少 - 输出未转义
pup
- 选择器是 CSS 选择器加上 DSL
- 接受 html,输出文本、json、html
- 用 Go 编程语言编写
- 具有许多功能,请访问他们的 GitHub 页面了解更多
- 输出已转义
依赖关系
~5–11MB
~114K SLoC