#nlp #tokenizer #llm #python-packages #codegeex

bin+lib tokengeex

TokenGeeX 是基于 UnigramLM 和 TokenMonster 的代码高效分词器

11 个版本 (3 个稳定版)

1.1.0 2024 年 6 月 3 日
1.0.0 2024 年 4 月 28 日
0.7.1 2024 年 4 月 4 日
0.7.0 2024 年 3 月 27 日

#469 in 机器学习

Download history • Rust 包仓库 152/week @ 2024-04-27 • Rust 包仓库 4/week @ 2024-05-04 • Rust 包仓库 94/week @ 2024-05-11 • Rust 包仓库 43/week @ 2024-05-18 • Rust 包仓库 6/week @ 2024-05-25 • Rust 包仓库 156/week @ 2024-06-01 • Rust 包仓库 14/week @ 2024-06-08 • Rust 包仓库 1/week @ 2024-06-15 • Rust 包仓库 12/week @ 2024-06-29 • Rust 包仓库 53/week @ 2024-07-06 • Rust 包仓库 77/week @ 2024-07-27 • Rust 包仓库

每月下载量 77 次

Apache-2.0

160KB
4K SLoC

Rust 3K SLoC // 0.1% comments • Rust 包仓库 Python 802 SLoC // 0.1% comments • Rust 包仓库 Shell 10 SLoC • Rust 包仓库

TokenGeeX - 代码GeeX的高效分词器

此存储库包含 TokenGeeX Rustcrate 和 Python 包的代码。TokenGeeX 是一个针对代码和中文的 CodeGeeX 分词器。它基于 UnigramLM (Taku Kudo 2018)

依赖项

~9–20MB
~268K SLoC