2 个不稳定版本
0.2.0 | 2024 年 6 月 24 日 |
---|---|
0.1.1 | 2024 年 5 月 11 日 |
0.1.0 |
|
#990 in 文本处理
58KB
2K SLoC
最小的分词器
纯 Rust 编写的 TinySegmenter 的端口,无依赖。您可以在以下位置找到 Rust 和 Python 的绑定:Rust 和 Python。
TinySegmenter 是由 Taku Kudo (2008) 原创的针对日语文本的 n-gram 单词分词器。
用法
将 crate 添加到您的项目中: cargo add tiniestsegmenter
。
use tiniestsegmenter as ts;
fn main() {
let tokens: Result<Vec<&str>, ts::TokenizeError> = ts::tokenize("ジャガイモが好きです。");
}