2 个版本
使用旧的 Rust 2015
0.1.1 | 2020 年 7 月 18 日 |
---|---|
0.1.0 | 2020 年 7 月 17 日 |
1330 在 文本处理
405KB
4.5K SLoC
rust-sastrawi
rust-sastrawi 是一个基于 PHP Sastrawi(由 Andy Librian 开发)的 Rust 库,它允许您在印度尼西亚语(印尼语)中进行词干提取和停用词删除
rust-sastrawi 是一个基于 PHP Sastrawi(由 Andy Librian 开发)的 Rust 库,用于在印度尼西亚语中进行词干提取和停用词删除
使用方法
- 在 Cargo.tompl 中添加依赖项
.
[dependencies]
sastrawi = "0.1.0"
- 使用终端下载依赖项,语法如下
cargocheck
- sastrawi 的使用示例
use sastrawi::*;
fn main() {
let dict = Dictionary::new();
let stemmer = Stemmer::new(&dict);
let sentence = String::from("Perekonomian Indonesia sedang dalam pertumbuhan yang membanggakan");
let stemmed_words = stemmer.stem_sentence(&sentence);
for word in stemmed_words.iter() {
println!("{}", word);
}
}
库
算法
- 纳齐夫和亚德里安尼算法
- 2007 年亚洲 J. 的 有效的印度尼西亚文本检索技术。澳大利亚 RMIT 大学计算机科学和信息技术学院博士论文。(PDF 和 Amazon)
- Arifin, A.Z., I.P.A.K. Mahendra 和 H.T. Ciptaningtyas. 2009. 用于印度尼西亚语言新闻文档分类的改进的 Confix Stripping Stemmer 和蚂蚁算法,国际信息技术和系统会议(ICTS)论文集。(PDF)
- A. D. Tahitoe, D. Purwitasari. 2010. 使用基于语料库的词干提取方法修改增强的 Confix Stripping Stemmer 用于印度尼西亚语,印度尼西亚苏卡诺理工学院(ITS)- 爱迪,60111,印度尼西亚。(PDF)
- 来自 Sastrawi 贡献者的额外 stemming 规则。
基础词汇表
萨斯特拉维的词干提取过程非常依赖于基础词汇表。萨斯特拉维使用来自 kateglo.com 的基础词汇表,并进行了一些修改。
许可证
与 PHP Sastrawi 一样,Go-Sastrawi 也以 MIT 许可证发布。Kateglo 基础词汇表的许可证是 CC-BY-NC-SA 3.0。
其他编程语言中
- Sastrawi - PHP
- JSastrawi - Java
- cSastrawi - C
- PySastrawi - Python
- Sastrawi-Ruby - Ruby
- Go-Sastrawi - Golang
依赖
~2.8–4.5MB
~75K SLoC