2 个版本
0.1.1 | 2021 年 1 月 18 日 |
---|---|
0.1.0 | 2018 年 2 月 8 日 |
#1743 in 文本处理
69 每月下载量
在 lingo 中使用
28KB
385 行
stopwords-rs

来自流行文本处理框架的停用词。
这些是通常在信息检索应用中被忽略的高频语法词。
lib.rs
:
此库提供来自流行文本处理引擎的停用词数据集。
这有助于重现使用不同语言和工具编写的文本分析管道的结果。
用法
[dependencies]
stopwords = "0.1.0"
extern crate stopwords;
use std::collections::HashSet;
use stopwords::{Spark, Language, Stopwords};
fn main() {
let stops: HashSet<_> = Spark::stopwords(Language::English).unwrap().iter().collect();
let mut tokens = vec!("brocolli", "is", "good", "to", "eat");
tokens.retain(|s| !stops.contains(s));
assert_eq!(tokens, vec!("brocolli", "good", "eat"));
}
依赖项
~270–730KB
~17K SLoC