2 个版本

0.1.1 2021 年 1 月 18 日
0.1.0 2018 年 2 月 8 日

#1743 in 文本处理

Download history 33/week @ 2024-03-11 23/week @ 2024-03-18 25/week @ 2024-03-25 60/week @ 2024-04-01 30/week @ 2024-04-08 29/week @ 2024-04-15 26/week @ 2024-04-22 17/week @ 2024-04-29 22/week @ 2024-05-06 18/week @ 2024-05-13 22/week @ 2024-05-20 21/week @ 2024-05-27 15/week @ 2024-06-03 27/week @ 2024-06-10 8/week @ 2024-06-17 18/week @ 2024-06-24

69 每月下载量
lingo 中使用

MIT 许可证

28KB
385

stopwords-rs Crates.io 构建状态

来自流行文本处理框架的停用词。

这些是通常在信息检索应用中被忽略的高频语法词。


lib.rs:

此库提供来自流行文本处理引擎的停用词数据集。

这有助于重现使用不同语言和工具编写的文本分析管道的结果。

用法

[dependencies]
stopwords = "0.1.0"
extern crate stopwords;

use std::collections::HashSet;
use stopwords::{Spark, Language, Stopwords};

fn main() {
    let stops: HashSet<_> = Spark::stopwords(Language::English).unwrap().iter().collect();
    let mut tokens = vec!("brocolli", "is", "good", "to", "eat");
    tokens.retain(|s| !stops.contains(s));
    assert_eq!(tokens, vec!("brocolli", "good", "eat"));
}

依赖项

~270–730KB
~17K SLoC