#tokenizer #token #words #nlp #tokenize #text

nipah_tokenizer

一款强大且简单的日常文本分词器!

1 个不稳定版本

0.1.0 2023年1月14日

#1603文本处理

自定义许可

29KB
730

nipah_tokenizer

一款强大且简单的日常文本分词器!

322977877_dark_magic_and_black_fire-transformed

如何使用

  1. 获取默认选项(或创建自己的配置)
let options = nipah_tokenizer::options::default();
  1. 获取一些文本
let text = "Hello, World!".to_string();
  1. 对您的文本进行分词!
use nipah_tokenizer::tokenizer::tokenize;

let tokens = tokenize(text, &options);

输出将如下

["Hello": Id] [Comma] ["World": Id] [Exclamation]

您可以根据自己的需求使用它,它非常灵活

编码愉快!

依赖项

~65KB