11 个版本 (3 个稳定版)
1.1.0 | 2024 年 6 月 3 日 |
---|---|
1.0.0 | 2024 年 4 月 28 日 |
0.7.1 | 2024 年 4 月 4 日 |
0.7.0 | 2024 年 3 月 27 日 |
#469 in 机器学习
每月下载量 77 次
160KB
4K SLoC
TokenGeeX - 代码GeeX的高效分词器
此存储库包含 TokenGeeX Rustcrate 和 Python 包的代码。TokenGeeX 是一个针对代码和中文的 CodeGeeX 分词器。它基于 UnigramLM (Taku Kudo 2018)。
依赖项
~9–20MB
~268K SLoC