#nlp #japanese #tokenizer #ngrams

tiniestsegmenter

紧凑的日语分词器

2 个不稳定版本

0.2.0 2024 年 6 月 24 日
0.1.1 2024 年 5 月 11 日
0.1.0 2024 年 5 月 11 日

#990 in 文本处理

自定义许可证

58KB
2K SLoC

最小的分词器

纯 Rust 编写的 TinySegmenter 的端口,无依赖。您可以在以下位置找到 Rust 和 Python 的绑定:RustPython

TinySegmenter 是由 Taku Kudo (2008) 原创的针对日语文本的 n-gram 单词分词器。

用法

将 crate 添加到您的项目中: cargo add tiniestsegmenter

use tiniestsegmenter as ts;

fn main() {
    let tokens: Result<Vec<&str>, ts::TokenizeError> = ts::tokenize("ジャガイモが好きです。");
}

无运行时依赖