#chinese #hanzi #tokenize #segment #localization #word

chinese_segmenter

使用基于字典的字典优先匹配方法对中文句子进行分词

5个版本 (2个稳定版)

1.0.1 2022年8月2日
1.0.0 2022年5月8日
0.1.2 2020年5月13日
0.1.1 2020年5月5日
0.1.0 2020年5月5日

#1458 in 文本处理

MIT许可证

4KB

segmenter

v1.0.0

关于

使用基于字典的字典优先匹配方法将中文句子分割成组成词汇。

用法

extern crate chinese_segmenter;

use chinese_segmenter::{initialize, tokenize};

let sentence = "今天晚上想吃羊肉吗?";
initialize(); // Optional intialization to load data
let result: Vec<&str> = tokenize(sentence);
println!("{:?}", result); // --> ['今天', '晚上', '想', '吃', '羊肉', '吗']

贡献者

许可证

MIT


lib.rs:

关于

使用基于字典的字典优先匹配方法将中文句子分割成组成词汇。

用法

extern crate chinese_segmenter;

use chinese_segmenter::{initialize, tokenize};

let sentence = "今天晚上想吃羊肉吗?";
initialize(); // Optional initialization to load data
let result: Vec<&str> = tokenize(sentence);
println!("{:?}", result); // --> ['今天', '晚上', '想', '吃', '羊肉', '吗']

依赖项

~4.5MB
~20K SLoC