1个不稳定版本
0.1.5 | 2023年10月19日 |
---|
#20 in #segmentation
6MB
204 行
khmercut.rs
一个用Rust编写的闪电般的Khmer单词分割工具。
let input_str = "ឃាត់ខ្លួនជនសង្ស័យ០៤នាក់ Hello, world ករណីលួចខ្សែភ្លើង នៅស្រុកព្រៃនប់។".to_string();
for token in khmercut::tokenize(&input_str) {
print!("{}|", token);
}
// => ឃាត់ខ្លួន|ជនសង្ស័យ|០៤|នាក់| |Hello,| |world| |ករណី|លួច|ខ្សែភ្លើង| |នៅ|ស្រុក|ព្រៃនប់|។|
运行
cargo run
依赖项
~4–6MB
~105K SLoC