8 个版本 (重大更改)

0.13.0 2024 年 8 月 24 日
0.12.0 2024 年 7 月 30 日
0.11.0 2024 年 7 月 5 日
0.10.0 2024 年 5 月 25 日
0.1.0 2023 年 12 月 31 日

#648机器学习

Download history 155/week @ 2024-05-12 145/week @ 2024-05-19 42/week @ 2024-05-26 7/week @ 2024-06-02 3/week @ 2024-06-09 1/week @ 2024-06-16 96/week @ 2024-06-30 17/week @ 2024-07-07 2/week @ 2024-07-14 156/week @ 2024-07-28 3/week @ 2024-08-04

每月 159 次下载
rten-generate 中使用

MIT/Apache

93KB
2K SLoC

rten-text

包含文本分词和相关功能的库,用于准备输入和解析文本模型(如 BERT)的输出。

该功能是 Hugging Face Tokenizers 中的功能子集。它功能较少,但依赖项也较少,且没有需要 C/C++ 的依赖项。


lib.rs:

此 crate 提供用于为机器学习模型的推理准备输入的文本分词器。它实现了流行的分词方法,如 WordPiece(BERT 所用)和 Byte Pair Encoding(GPT-2 所用)。

它不支持训练新词汇,并且未针对处理大量文本进行优化。如果您需要一个功能更完整的分词 crate,请参阅 HuggingFace tokenizers

依赖项

~4.5–6.5MB
~147K SLoC