#extract #text #html #content #document #boilerplate #port

boilerpipe

从 HTML 文档中提取文本的库

6 个版本 (重大更新)

0.6.0 2021 年 8 月 10 日
0.5.0 2021 年 4 月 12 日
0.4.0 2021 年 3 月 9 日
0.3.0 2021 年 1 月 15 日
0.1.0 2020 年 11 月 12 日

#1833 in 文本处理

Download history 16/week @ 2024-05-20 8/week @ 2024-05-27 18/week @ 2024-06-03 14/week @ 2024-06-10 4/week @ 2024-06-17 7/week @ 2024-06-24 45/week @ 2024-07-01 19/week @ 2024-07-08 19/week @ 2024-07-15 43/week @ 2024-07-22

每月 126 次下载

MIT 许可证

480KB
1K SLoC

Boilerpipe

这是从优秀的 Java 库 boilerpipeGolang 端口 的 Rust 版本,该库清理了样板内容并从 HTML 文档中提取文本内容。

此库仅实现文章提取器和文本内容(不包括图片、链接等)。

依赖项

~7–14MB
~162K SLoC