21 个版本
0.8.0 | 2023 年 10 月 8 日 |
---|---|
0.7.2 | 2023 年 5 月 14 日 |
0.7.1 | 2023 年 3 月 31 日 |
0.7.0 | 2022 年 9 月 24 日 |
0.2.2 | 2020 年 8 月 28 日 |
#306 在 文本处理
777 每月下载量
用于 7 crates
110KB
311 行
关于
停用词是没有太多意义的词,通常在文本分析或自然语言处理之前作为预处理步骤删除。这个 crate 包含多种语言的常用停用词。这个 crate 使用来自 Stopwords ISO 和来自 NLTK 的停用词列表。
用法
使用这个 crate 很简单
// Get the stop words
let words = stop_words::get(stop_words::LANGUAGE::English);
// Print them
for word in words {
println!("{}", word);
}
函数 get
将接受 LANGUAGE
枚举的一个成员或一个两位的 ISO 语言代码,作为 str
或 String
类型。
您可以在这里找到读取文本文件并删除停用词的完整示例。
ISO 语言可用性
这个 crate 支持 Stopwords ISO 和 NLTK 中的所有语言。展开下表以查看完整描述。
语言覆盖表
ISO 639-1 代码 | 语言 | Stopwords ISO | NLTK |
---|---|---|---|
aa | Afar | ||
ab | Abkhazian | ||
af | Afrikaans | ✓ | |
ak | Akan | ||
sq | Albanian | ||
am | Amharic | ||
ar | Arabic | ✓ | ✓ |
an | Aragonese | ||
hy | Armenian | ✓ | |
as | Assamese | ||
av | Avaric | ||
ae | Avestan | ||
ay | Aymara | ||
az | Azerbaijani | ✓ | |
ba | Bashkir | ||
bm | Bambara | ||
eu | Basque | ✓ | |
be | Belarusian | ||
bn | Bengali | ✓ | |
bh | Bihari languages | ||
bi | Bislama | ||
bo | Tibetan | ||
bs | Bosnian | ||
br | Breton | ✓ | |
bg | Bulgarian | ✓ | |
my | Burmese | ||
ca | Catalan; Valencian | ✓ | |
cs | Czech | ✓ | |
ch | Chamorro | ||
ce | Chechen | ||
zh | Chinese | ✓ | |
cu | Church Slavic; Old Slavonic; Church Slavonic; Old Bulgarian; Old Church Slavonic | ||
cv | 楚瓦什语 | ||
kw | 康瓦尔语 | ||
co | 科西嘉语 | ||
cr | 克里语 | ||
cy | 威尔士语 | ||
da | 丹麦语 | ✓ | ✓ |
de | 德语 | ✓ | ✓ |
dv | 迪维希语;迪维希语;马尔代夫语 | ||
nl | 荷兰语;弗拉芒语 | ✓ | ✓ |
dz | 不丹语 | ||
el | 希腊语,现代(1453-) | ✓ | ✓ |
en | 英语 | ✓ | ✓ |
eo | 世界语 | ✓ | |
et | 爱沙尼亚语 | ✓ | |
ee | 埃维语 | ||
fo | 法罗语 | ||
fa | 波斯语 | ✓ | |
fj | 斐济语 | ||
fi | 芬兰语 | ✓ | ✓ |
fr | 法语 | ✓ | ✓ |
fy | 西弗里西兰语 | ||
ff | 富拉语 | ||
ka | 格鲁吉亚语 | ||
gd | 盖尔语;苏格兰盖尔语 | ||
ga | 爱尔兰语 | ✓ | |
gl | 加泰罗尼亚语 | ✓ | |
gv | 曼岛语 | ||
gn | 瓜拉尼语 | ||
gu | 古吉拉特语 | ✓ | |
ht | 海地语;海地克里奥尔语 | ||
ha | 豪萨语 | ✓ | |
he | 希伯来语 | ✓ | |
hz | 赫雷罗语 | ||
hi | 印地语 | ✓ | |
ho | 希里莫图语 | ||
hr | 克罗地亚语 | ✓ | |
hu | 匈牙利语 | ✓ | ✓ |
ig | 伊博语 | ||
is | 冰岛语 | ||
io | 伊多语 | ||
ii | 四川彝语;彝语 | ||
iu | 因纽特语 | ||
ie | 国际辅助语;奥克西塔尼亚语 | ||
ia | 国际语(国际辅助语协会) | ||
id | 印度尼西亚语 | ✓ | ✓ |
ik | 因纽皮亚克语 | ||
it | 意大利语 | ✓ | ✓ |
jv | 爪哇语 | ||
ja | 日语 | ✓ | |
kl | 格陵兰语;格陵兰语 | ||
kn | 卡纳达语 | ||
ks | 克什米尔语 | ||
kr | 卡努里语 | ||
kk | 哈萨克语 | ✓ | |
km | 高棉语 | ||
ki | 基库尤语;吉库尤语 | ||
rw | 卢旺达语 | ||
ky | 吉尔吉斯语;柯尔克孜语 | ||
kv | 科米语 | ||
kg | 刚果语 | ||
ko | 韩语 | ✓ | |
kj | 库安亚马语;库安亚马语 | ||
ku | 库尔德语 | ✓ | |
lo | 老挝语 | ||
la | 拉丁语 | ✓ | |
lv | 拉脱维亚语 | ✓ | |
li | 林堡语;林堡语;林堡语 | ||
ln | 林加拉语 | ||
lt | 立陶宛语 | ✓ | |
lb | 卢森堡语;卢森堡语 | ||
lu | 卢巴-卡坦加语 | ||
lg | 刚达语 | ||
mk | 马其顿语 | ||
mh | 马绍尔语 | ||
ml | 马拉雅拉姆语 | ||
mi | 毛利语 | ||
mr | 马拉地语 | ✓ | |
ms | 马来语 | ✓ | |
mg | 马达加斯加语 | ||
mt | 马耳他语 | ||
mn | 蒙古语 | ||
na | 瑙鲁语 | ||
nv | 纳瓦霍语;纳瓦霍语 | ||
nr | 恩德贝勒语,南部;南恩德贝勒语 | ||
nd | 恩德贝勒语,北部;北恩德贝勒语 | ||
ng | 恩东加语 | ||
ne | 尼泊尔语 | ✓ | |
nn | 挪威新语;新挪威语,挪威语 | ||
nb | 博克马尔语,挪威;挪威博克马尔语 | ||
no | 挪威语 | ✓ | ✓ |
ny | 齐切瓦语;切瓦语;尼亚亚语 | ||
oc | 奥克西塔尼亚语(1500年后) | ||
oj | 奥吉布瓦语 | ||
or | 奥里雅语 | ||
om | 奥罗莫语 | ||
os | 奥塞梯语;奥塞梯语 | ||
pa | 旁遮普语;潘查比语 | ||
pi | 巴利语 | ||
pl | 波兰语 | ✓ | |
pt | 葡萄牙语 | ✓ | ✓ |
ps | 普什图语;普什图语 | ||
qu | 基切瓦语 | ||
rm | 罗曼什语 | ||
ro | 罗马尼亚语;摩尔多瓦语;摩尔多瓦语 | ✓ | ✓ |
rn | 伦迪语 | ||
ru | 俄语 | ✓ | ✓ |
sg | 桑戈语 | ||
sa | 梵文 | ||
si | 僧伽罗语;僧伽罗语 | ||
sk | 斯洛伐克语 | ✓ | |
sl | 斯洛文尼亚语 | ✓ | ✓ |
se | 北萨米语 | ||
sm | 萨摩亚语 | ||
sn | 绍纳语 | ||
sd | 信德语 | ||
so | 索马里语 | ✓ | |
st | 南索托语 | ✓ | |
es | 西班牙语;卡斯蒂利亚语 | ✓ | ✓ |
sc | 撒丁语 | ||
sr | 塞尔维亚语 | ||
ss | 斯瓦蒂语 | ||
su | 巽他语 | ||
sw | 斯瓦希里语 | ✓ | |
sv | 瑞典语 | ✓ | ✓ |
ty | 塔希提语 | ||
ta | 泰米尔语 | ||
tt | 鞑靼语 | ||
te | 泰卢固语 | ||
tg | 塔吉克语 | ✓ | |
tl | 他加禄语 | ✓ | |
th | 泰语 | ✓ | |
ti | 提格利尼亚语 | ||
to | 汤加语(汤加群岛) | ||
tn | 茨瓦纳语 | ||
ts | 聪加语 | ||
tk | 土库曼语 | ||
tr | 土耳其语 | ✓ | ✓ |
tw | 蒂威语 | ||
ug | 维吾尔语;维吾尔 | ||
uk | 乌克兰语 | ✓ | |
ur | 乌尔都语 | ✓ | |
uz | 乌兹别克语 | ||
ve | 文达语 | ||
vi | 越南语 | ✓ | |
vo | 沃拉普克语 | ||
wa | 瓦隆语 | ||
wo | 沃洛夫语 | ||
xh | 科萨语 | ||
yi | 意第绪语 | ||
yo | 约鲁巴语 | ✓ | |
za | 壮语;僮语 | ||
zu | 祖鲁语 | ✓ |
构建语言可用性
我们还支持一些构建(虚构/幻想)语言!展开下表以查看全面的描述。ChatGPT被用来快速生成这些列表,因此它们是不完整和近似的。欢迎提供帮助!要使用这些语言,请添加constructed
功能。
语言覆盖表
ISO 639-3代码 | 语言 |
---|---|
qya | 昆雅语 |
sjn | 辛达林语 |
tlh | 克林贡语 |
mis (这里使用点) | 多斯拉克语 |
mis (这里使用dov) | 多瓦呼祖尔语 |
mis (这里使用nav) | 纳维语 |
mis (这里使用val) | 高级瓦里安语 |
以下提示使用了2023年3月14日的ChatGPT版本
Please give me one list of 20 stop words for each of the following languages: Sindarin, Quenya, DOthraki, Na'vi,
Dovahzul, Klingon, and High Valyrian. I'd like the lists to be formatted as follows:
Sindarin
1. [word goes here]
2. [word goes here]
...
20. [word goes here]
Quenya
1. [word goes here]
...
And so on
依赖项
~0.5-1MB
~20K SLoC