#nlp #tokenizer #llm #python-packages #codegeex

bin+lib tokengeex

TokenGeeX 是基于 UnigramLM 和 TokenMonster 的代码高效分词器

11 个版本 (3 个稳定版)

1.1.0 2024 年 6 月 3 日
1.0.0 2024 年 4 月 28 日
0.7.1 2024 年 4 月 4 日
0.7.0 2024 年 3 月 27 日

#469 in 机器学习

Download history 152/week @ 2024-04-27 4/week @ 2024-05-04 94/week @ 2024-05-11 43/week @ 2024-05-18 6/week @ 2024-05-25 156/week @ 2024-06-01 14/week @ 2024-06-08 1/week @ 2024-06-15 12/week @ 2024-06-29 53/week @ 2024-07-06 77/week @ 2024-07-27

每月下载量 77 次

Apache-2.0

160KB
4K SLoC

Rust 3K SLoC // 0.1% comments Python 802 SLoC // 0.1% comments Shell 10 SLoC

TokenGeeX - 代码GeeX的高效分词器

此存储库包含 TokenGeeX Rustcrate 和 Python 包的代码。TokenGeeX 是一个针对代码和中文的 CodeGeeX 分词器。它基于 UnigramLM (Taku Kudo 2018)

依赖项

~9–20MB
~268K SLoC