21 个版本

0.8.0 2023 年 10 月 8 日
0.7.2 2023 年 5 月 14 日
0.7.1 2023 年 3 月 31 日
0.7.0 2022 年 9 月 24 日
0.2.2 2020 年 8 月 28 日

#306文本处理

Download history 139/week @ 2024-04-23 206/week @ 2024-04-30 199/week @ 2024-05-07 113/week @ 2024-05-14 203/week @ 2024-05-21 150/week @ 2024-05-28 151/week @ 2024-06-04 98/week @ 2024-06-11 126/week @ 2024-06-18 99/week @ 2024-06-25 53/week @ 2024-07-02 118/week @ 2024-07-09 174/week @ 2024-07-16 226/week @ 2024-07-23 219/week @ 2024-07-30 135/week @ 2024-08-06

777 每月下载量
用于 7 crates

MIT/Apache

110KB
311

Github CI Crates.io docs.rs

关于

停用词是没有太多意义的词,通常在文本分析或自然语言处理之前作为预处理步骤删除。这个 crate 包含多种语言的常用停用词。这个 crate 使用来自 Stopwords ISO 和来自 NLTK 的停用词列表。

用法

使用这个 crate 很简单

// Get the stop words
let words = stop_words::get(stop_words::LANGUAGE::English);

// Print them
for word in words {
    println!("{}", word);
}

函数 get 将接受 LANGUAGE 枚举的一个成员或一个两位的 ISO 语言代码,作为 strString 类型。

您可以在这里找到读取文本文件并删除停用词的完整示例。

ISO 语言可用性

这个 crate 支持 Stopwords ISONLTK 中的所有语言。展开下表以查看完整描述。

语言覆盖表
ISO 639-1 代码 语言 Stopwords ISO NLTK
aa Afar
ab Abkhazian
af Afrikaans
ak Akan
sq Albanian
am Amharic
ar Arabic
an Aragonese
hy Armenian
as Assamese
av Avaric
ae Avestan
ay Aymara
az Azerbaijani
ba Bashkir
bm Bambara
eu Basque
be Belarusian
bn Bengali
bh Bihari languages
bi Bislama
bo Tibetan
bs Bosnian
br Breton
bg Bulgarian
my Burmese
ca Catalan; Valencian
cs Czech
ch Chamorro
ce Chechen
zh Chinese
cu Church Slavic; Old Slavonic; Church Slavonic; Old Bulgarian; Old Church Slavonic
cv 楚瓦什语
kw 康瓦尔语
co 科西嘉语
cr 克里语
cy 威尔士语
da 丹麦语
de 德语
dv 迪维希语;迪维希语;马尔代夫语
nl 荷兰语;弗拉芒语
dz 不丹语
el 希腊语,现代(1453-)
en 英语
eo 世界语
et 爱沙尼亚语
ee 埃维语
fo 法罗语
fa 波斯语
fj 斐济语
fi 芬兰语
fr 法语
fy 西弗里西兰语
ff 富拉语
ka 格鲁吉亚语
gd 盖尔语;苏格兰盖尔语
ga 爱尔兰语
gl 加泰罗尼亚语
gv 曼岛语
gn 瓜拉尼语
gu 古吉拉特语
ht 海地语;海地克里奥尔语
ha 豪萨语
he 希伯来语
hz 赫雷罗语
hi 印地语
ho 希里莫图语
hr 克罗地亚语
hu 匈牙利语
ig 伊博语
is 冰岛语
io 伊多语
ii 四川彝语;彝语
iu 因纽特语
ie 国际辅助语;奥克西塔尼亚语
ia 国际语(国际辅助语协会)
id 印度尼西亚语
ik 因纽皮亚克语
it 意大利语
jv 爪哇语
ja 日语
kl 格陵兰语;格陵兰语
kn 卡纳达语
ks 克什米尔语
kr 卡努里语
kk 哈萨克语
km 高棉语
ki 基库尤语;吉库尤语
rw 卢旺达语
ky 吉尔吉斯语;柯尔克孜语
kv 科米语
kg 刚果语
ko 韩语
kj 库安亚马语;库安亚马语
ku 库尔德语
lo 老挝语
la 拉丁语
lv 拉脱维亚语
li 林堡语;林堡语;林堡语
ln 林加拉语
lt 立陶宛语
lb 卢森堡语;卢森堡语
lu 卢巴-卡坦加语
lg 刚达语
mk 马其顿语
mh 马绍尔语
ml 马拉雅拉姆语
mi 毛利语
mr 马拉地语
ms 马来语
mg 马达加斯加语
mt 马耳他语
mn 蒙古语
na 瑙鲁语
nv 纳瓦霍语;纳瓦霍语
nr 恩德贝勒语,南部;南恩德贝勒语
nd 恩德贝勒语,北部;北恩德贝勒语
ng 恩东加语
ne 尼泊尔语
nn 挪威新语;新挪威语,挪威语
nb 博克马尔语,挪威;挪威博克马尔语
no 挪威语
ny 齐切瓦语;切瓦语;尼亚亚语
oc 奥克西塔尼亚语(1500年后)
oj 奥吉布瓦语
or 奥里雅语
om 奥罗莫语
os 奥塞梯语;奥塞梯语
pa 旁遮普语;潘查比语
pi 巴利语
pl 波兰语
pt 葡萄牙语
ps 普什图语;普什图语
qu 基切瓦语
rm 罗曼什语
ro 罗马尼亚语;摩尔多瓦语;摩尔多瓦语
rn 伦迪语
ru 俄语
sg 桑戈语
sa 梵文
si 僧伽罗语;僧伽罗语
sk 斯洛伐克语
sl 斯洛文尼亚语
se 北萨米语
sm 萨摩亚语
sn 绍纳语
sd 信德语
so 索马里语
st 南索托语
es 西班牙语;卡斯蒂利亚语
sc 撒丁语
sr 塞尔维亚语
ss 斯瓦蒂语
su 巽他语
sw 斯瓦希里语
sv 瑞典语
ty 塔希提语
ta 泰米尔语
tt 鞑靼语
te 泰卢固语
tg 塔吉克语
tl 他加禄语
th 泰语
ti 提格利尼亚语
to 汤加语(汤加群岛)
tn 茨瓦纳语
ts 聪加语
tk 土库曼语
tr 土耳其语
tw 蒂威语
ug 维吾尔语;维吾尔
uk 乌克兰语
ur 乌尔都语
uz 乌兹别克语
ve 文达语
vi 越南语
vo 沃拉普克语
wa 瓦隆语
wo 沃洛夫语
xh 科萨语
yi 意第绪语
yo 约鲁巴语
za 壮语;僮语
zu 祖鲁语

构建语言可用性

我们还支持一些构建(虚构/幻想)语言!展开下表以查看全面的描述。ChatGPT被用来快速生成这些列表,因此它们是不完整和近似的。欢迎提供帮助!要使用这些语言,请添加constructed功能。

语言覆盖表
ISO 639-3代码 语言
qya 昆雅语
sjn 辛达林语
tlh 克林贡语
mis (这里使用点) 多斯拉克语
mis (这里使用dov) 多瓦呼祖尔语
mis (这里使用nav) 纳维语
mis (这里使用val) 高级瓦里安语

以下提示使用了2023年3月14日的ChatGPT版本

Please give me one list of 20 stop words for each of the following languages: Sindarin, Quenya, DOthraki, Na'vi, 
Dovahzul, Klingon, and High Valyrian. I'd like the lists to be formatted as follows:
Sindarin
1. [word goes here]
2. [word goes here]
...
20. [word goes here]
Quenya
1. [word goes here]
...

And so on

依赖项

~0.5-1MB
~20K SLoC