#stemming #language #removal #php #indonesia #bahasa #indonesian

sastrawi

基于 PHP sastrawi 项目(由 Andy Librian 开发)的用于巴哈萨语(印度尼西亚语)词干提取和停用词删除的库

2 个版本

使用旧的 Rust 2015

0.1.1 2020 年 7 月 18 日
0.1.0 2020 年 7 月 17 日

1330文本处理

MITGPL-3.0-only

405KB
4.5K SLoC

rust-sastrawi

rust-sastrawi 是一个基于 PHP Sastrawi(由 Andy Librian 开发)的 Rust 库,它允许您在印度尼西亚语(印尼语)中进行词干提取和停用词删除

rust-sastrawi 是一个基于 PHP Sastrawi(由 Andy Librian 开发)的 Rust 库,用于在印度尼西亚语中进行词干提取和停用词删除

使用方法

  1. 在 Cargo.tompl 中添加依赖项
.
[dependencies]
sastrawi = "0.1.0"
  1. 使用终端下载依赖项,语法如下

cargocheck

  1. sastrawi 的使用示例
use sastrawi::*;

fn main() {
    let dict = Dictionary::new();
    let stemmer = Stemmer::new(&dict);
    let sentence = String::from("Perekonomian Indonesia sedang dalam pertumbuhan yang membanggakan");
    let stemmed_words = stemmer.stem_sentence(&sentence);
    for word in stemmed_words.iter() {
        println!("{}", word);
    }
}

算法

  1. 纳齐夫和亚德里安尼算法
  2. 2007 年亚洲 J. 的 有效的印度尼西亚文本检索技术。澳大利亚 RMIT 大学计算机科学和信息技术学院博士论文。(PDFAmazon
  3. Arifin, A.Z., I.P.A.K. Mahendra 和 H.T. Ciptaningtyas. 2009. 用于印度尼西亚语言新闻文档分类的改进的 Confix Stripping Stemmer 和蚂蚁算法,国际信息技术和系统会议(ICTS)论文集。(PDF
  4. A. D. Tahitoe, D. Purwitasari. 2010. 使用基于语料库的词干提取方法修改增强的 Confix Stripping Stemmer 用于印度尼西亚语,印度尼西亚苏卡诺理工学院(ITS)- 爱迪,60111,印度尼西亚。(PDF
  5. 来自 Sastrawi 贡献者的额外 stemming 规则。

基础词汇表

萨斯特拉维的词干提取过程非常依赖于基础词汇表。萨斯特拉维使用来自 kateglo.com 的基础词汇表,并进行了一些修改。

许可证

与 PHP Sastrawi 一样,Go-Sastrawi 也以 MIT 许可证发布。Kateglo 基础词汇表的许可证是 CC-BY-NC-SA 3.0

其他编程语言中

依赖

~2.8–4.5MB
~75K SLoC