8 个版本 (重大更改)
新 0.13.0 | 2024 年 8 月 24 日 |
---|---|
0.12.0 | 2024 年 7 月 30 日 |
0.11.0 | 2024 年 7 月 5 日 |
0.10.0 | 2024 年 5 月 25 日 |
0.1.0 | 2023 年 12 月 31 日 |
#648 在 机器学习 中
每月 159 次下载
在 rten-generate 中使用
93KB
2K SLoC
rten-text
包含文本分词和相关功能的库,用于准备输入和解析文本模型(如 BERT)的输出。
该功能是 Hugging Face Tokenizers 中的功能子集。它功能较少,但依赖项也较少,且没有需要 C/C++ 的依赖项。
lib.rs
:
此 crate 提供用于为机器学习模型的推理准备输入的文本分词器。它实现了流行的分词方法,如 WordPiece(BERT 所用)和 Byte Pair Encoding(GPT-2 所用)。
它不支持训练新词汇,并且未针对处理大量文本进行优化。如果您需要一个功能更完整的分词 crate,请参阅 HuggingFace tokenizers。
依赖项
~4.5–6.5MB
~147K SLoC