TokenGeeX 是基于 UnigramLM 和 TokenMonster 的代码高效分词器
作者:rojas-diego
#469 in 机器学习
每月下载量 77 次
160KB 4K SLoC
此存储库包含 TokenGeeX Rustcrate 和 Python 包的代码。TokenGeeX 是一个针对代码和中文的 CodeGeeX 分词器。它基于 UnigramLM (Taku Kudo 2018)。
~9–20MB ~268K SLoC