1 个不稳定版本
0.1.0 | 2023年1月14日 |
---|
#1603 在 文本处理
29KB
730 行
nipah_tokenizer
一款强大且简单的日常文本分词器!
如何使用
- 获取默认选项(或创建自己的配置)
let options = nipah_tokenizer::options::default();
- 获取一些文本
let text = "Hello, World!".to_string();
- 对您的文本进行分词!
use nipah_tokenizer::tokenizer::tokenize;
let tokens = tokenize(text, &options);
输出将如下
["Hello": Id] [Comma] ["World": Id] [Exclamation]
您可以根据自己的需求使用它,它非常灵活
编码愉快!
依赖项
~65KB