21 个版本
| 0.8.0 | 2023 年 10 月 8 日 |
|---|---|
| 0.7.2 | 2023 年 5 月 14 日 |
| 0.7.1 | 2023 年 3 月 31 日 |
| 0.7.0 | 2022 年 9 月 24 日 |
| 0.2.2 | 2020 年 8 月 28 日 |
#306 在 文本处理
777 每月下载量
用于 7 crates
110KB
311 行
关于
停用词是没有太多意义的词,通常在文本分析或自然语言处理之前作为预处理步骤删除。这个 crate 包含多种语言的常用停用词。这个 crate 使用来自 Stopwords ISO 和来自 NLTK 的停用词列表。
用法
使用这个 crate 很简单
// Get the stop words
let words = stop_words::get(stop_words::LANGUAGE::English);
// Print them
for word in words {
println!("{}", word);
}
函数 get 将接受 LANGUAGE 枚举的一个成员或一个两位的 ISO 语言代码,作为 str 或 String 类型。
您可以在这里找到读取文本文件并删除停用词的完整示例。
ISO 语言可用性
这个 crate 支持 Stopwords ISO 和 NLTK 中的所有语言。展开下表以查看完整描述。
语言覆盖表
| ISO 639-1 代码 | 语言 | Stopwords ISO | NLTK |
|---|---|---|---|
| aa | Afar | ||
| ab | Abkhazian | ||
| af | Afrikaans | ✓ | |
| ak | Akan | ||
| sq | Albanian | ||
| am | Amharic | ||
| ar | Arabic | ✓ | ✓ |
| an | Aragonese | ||
| hy | Armenian | ✓ | |
| as | Assamese | ||
| av | Avaric | ||
| ae | Avestan | ||
| ay | Aymara | ||
| az | Azerbaijani | ✓ | |
| ba | Bashkir | ||
| bm | Bambara | ||
| eu | Basque | ✓ | |
| be | Belarusian | ||
| bn | Bengali | ✓ | |
| bh | Bihari languages | ||
| bi | Bislama | ||
| bo | Tibetan | ||
| bs | Bosnian | ||
| br | Breton | ✓ | |
| bg | Bulgarian | ✓ | |
| my | Burmese | ||
| ca | Catalan; Valencian | ✓ | |
| cs | Czech | ✓ | |
| ch | Chamorro | ||
| ce | Chechen | ||
| zh | Chinese | ✓ | |
| cu | Church Slavic; Old Slavonic; Church Slavonic; Old Bulgarian; Old Church Slavonic | ||
| cv | 楚瓦什语 | ||
| kw | 康瓦尔语 | ||
| co | 科西嘉语 | ||
| cr | 克里语 | ||
| cy | 威尔士语 | ||
| da | 丹麦语 | ✓ | ✓ |
| de | 德语 | ✓ | ✓ |
| dv | 迪维希语;迪维希语;马尔代夫语 | ||
| nl | 荷兰语;弗拉芒语 | ✓ | ✓ |
| dz | 不丹语 | ||
| el | 希腊语,现代(1453-) | ✓ | ✓ |
| en | 英语 | ✓ | ✓ |
| eo | 世界语 | ✓ | |
| et | 爱沙尼亚语 | ✓ | |
| ee | 埃维语 | ||
| fo | 法罗语 | ||
| fa | 波斯语 | ✓ | |
| fj | 斐济语 | ||
| fi | 芬兰语 | ✓ | ✓ |
| fr | 法语 | ✓ | ✓ |
| fy | 西弗里西兰语 | ||
| ff | 富拉语 | ||
| ka | 格鲁吉亚语 | ||
| gd | 盖尔语;苏格兰盖尔语 | ||
| ga | 爱尔兰语 | ✓ | |
| gl | 加泰罗尼亚语 | ✓ | |
| gv | 曼岛语 | ||
| gn | 瓜拉尼语 | ||
| gu | 古吉拉特语 | ✓ | |
| ht | 海地语;海地克里奥尔语 | ||
| ha | 豪萨语 | ✓ | |
| he | 希伯来语 | ✓ | |
| hz | 赫雷罗语 | ||
| hi | 印地语 | ✓ | |
| ho | 希里莫图语 | ||
| hr | 克罗地亚语 | ✓ | |
| hu | 匈牙利语 | ✓ | ✓ |
| ig | 伊博语 | ||
| is | 冰岛语 | ||
| io | 伊多语 | ||
| ii | 四川彝语;彝语 | ||
| iu | 因纽特语 | ||
| ie | 国际辅助语;奥克西塔尼亚语 | ||
| ia | 国际语(国际辅助语协会) | ||
| id | 印度尼西亚语 | ✓ | ✓ |
| ik | 因纽皮亚克语 | ||
| it | 意大利语 | ✓ | ✓ |
| jv | 爪哇语 | ||
| ja | 日语 | ✓ | |
| kl | 格陵兰语;格陵兰语 | ||
| kn | 卡纳达语 | ||
| ks | 克什米尔语 | ||
| kr | 卡努里语 | ||
| kk | 哈萨克语 | ✓ | |
| km | 高棉语 | ||
| ki | 基库尤语;吉库尤语 | ||
| rw | 卢旺达语 | ||
| ky | 吉尔吉斯语;柯尔克孜语 | ||
| kv | 科米语 | ||
| kg | 刚果语 | ||
| ko | 韩语 | ✓ | |
| kj | 库安亚马语;库安亚马语 | ||
| ku | 库尔德语 | ✓ | |
| lo | 老挝语 | ||
| la | 拉丁语 | ✓ | |
| lv | 拉脱维亚语 | ✓ | |
| li | 林堡语;林堡语;林堡语 | ||
| ln | 林加拉语 | ||
| lt | 立陶宛语 | ✓ | |
| lb | 卢森堡语;卢森堡语 | ||
| lu | 卢巴-卡坦加语 | ||
| lg | 刚达语 | ||
| mk | 马其顿语 | ||
| mh | 马绍尔语 | ||
| ml | 马拉雅拉姆语 | ||
| mi | 毛利语 | ||
| mr | 马拉地语 | ✓ | |
| ms | 马来语 | ✓ | |
| mg | 马达加斯加语 | ||
| mt | 马耳他语 | ||
| mn | 蒙古语 | ||
| na | 瑙鲁语 | ||
| nv | 纳瓦霍语;纳瓦霍语 | ||
| nr | 恩德贝勒语,南部;南恩德贝勒语 | ||
| nd | 恩德贝勒语,北部;北恩德贝勒语 | ||
| ng | 恩东加语 | ||
| ne | 尼泊尔语 | ✓ | |
| nn | 挪威新语;新挪威语,挪威语 | ||
| nb | 博克马尔语,挪威;挪威博克马尔语 | ||
| no | 挪威语 | ✓ | ✓ |
| ny | 齐切瓦语;切瓦语;尼亚亚语 | ||
| oc | 奥克西塔尼亚语(1500年后) | ||
| oj | 奥吉布瓦语 | ||
| or | 奥里雅语 | ||
| om | 奥罗莫语 | ||
| os | 奥塞梯语;奥塞梯语 | ||
| pa | 旁遮普语;潘查比语 | ||
| pi | 巴利语 | ||
| pl | 波兰语 | ✓ | |
| pt | 葡萄牙语 | ✓ | ✓ |
| ps | 普什图语;普什图语 | ||
| qu | 基切瓦语 | ||
| rm | 罗曼什语 | ||
| ro | 罗马尼亚语;摩尔多瓦语;摩尔多瓦语 | ✓ | ✓ |
| rn | 伦迪语 | ||
| ru | 俄语 | ✓ | ✓ |
| sg | 桑戈语 | ||
| sa | 梵文 | ||
| si | 僧伽罗语;僧伽罗语 | ||
| sk | 斯洛伐克语 | ✓ | |
| sl | 斯洛文尼亚语 | ✓ | ✓ |
| se | 北萨米语 | ||
| sm | 萨摩亚语 | ||
| sn | 绍纳语 | ||
| sd | 信德语 | ||
| so | 索马里语 | ✓ | |
| st | 南索托语 | ✓ | |
| es | 西班牙语;卡斯蒂利亚语 | ✓ | ✓ |
| sc | 撒丁语 | ||
| sr | 塞尔维亚语 | ||
| ss | 斯瓦蒂语 | ||
| su | 巽他语 | ||
| sw | 斯瓦希里语 | ✓ | |
| sv | 瑞典语 | ✓ | ✓ |
| ty | 塔希提语 | ||
| ta | 泰米尔语 | ||
| tt | 鞑靼语 | ||
| te | 泰卢固语 | ||
| tg | 塔吉克语 | ✓ | |
| tl | 他加禄语 | ✓ | |
| th | 泰语 | ✓ | |
| ti | 提格利尼亚语 | ||
| to | 汤加语(汤加群岛) | ||
| tn | 茨瓦纳语 | ||
| ts | 聪加语 | ||
| tk | 土库曼语 | ||
| tr | 土耳其语 | ✓ | ✓ |
| tw | 蒂威语 | ||
| ug | 维吾尔语;维吾尔 | ||
| uk | 乌克兰语 | ✓ | |
| ur | 乌尔都语 | ✓ | |
| uz | 乌兹别克语 | ||
| ve | 文达语 | ||
| vi | 越南语 | ✓ | |
| vo | 沃拉普克语 | ||
| wa | 瓦隆语 | ||
| wo | 沃洛夫语 | ||
| xh | 科萨语 | ||
| yi | 意第绪语 | ||
| yo | 约鲁巴语 | ✓ | |
| za | 壮语;僮语 | ||
| zu | 祖鲁语 | ✓ |
构建语言可用性
我们还支持一些构建(虚构/幻想)语言!展开下表以查看全面的描述。ChatGPT被用来快速生成这些列表,因此它们是不完整和近似的。欢迎提供帮助!要使用这些语言,请添加constructed功能。
语言覆盖表
| ISO 639-3代码 | 语言 |
|---|---|
| qya | 昆雅语 |
| sjn | 辛达林语 |
| tlh | 克林贡语 |
| mis (这里使用点) | 多斯拉克语 |
| mis (这里使用dov) | 多瓦呼祖尔语 |
| mis (这里使用nav) | 纳维语 |
| mis (这里使用val) | 高级瓦里安语 |
以下提示使用了2023年3月14日的ChatGPT版本
Please give me one list of 20 stop words for each of the following languages: Sindarin, Quenya, DOthraki, Na'vi,
Dovahzul, Klingon, and High Valyrian. I'd like the lists to be formatted as follows:
Sindarin
1. [word goes here]
2. [word goes here]
...
20. [word goes here]
Quenya
1. [word goes here]
...
And so on
依赖项
~0.5-1MB
~20K SLoC