#648 在机器学习中

每月 159 次下载
在 rten-generate 中使用

MIT/Apache

93KB
2K SLoC

rten-text

包含文本分词和相关功能的库，用于准备输入和解析文本模型（如 BERT）的输出。

该功能是 Hugging Face Tokenizers 中的功能子集。它功能较少，但依赖项也较少，且没有需要 C/C++ 的依赖项。

此 crate 提供用于为机器学习模型的推理准备输入的文本分词器。它实现了流行的分词方法，如 WordPiece（BERT 所用）和 Byte Pair Encoding（GPT-2 所用）。

它不支持训练新词汇，并且未针对处理大量文本进行优化。如果您需要一个功能更完整的分词 crate，请参阅 HuggingFace tokenizers。

~4.5–6.5MB
~147K SLoC