1 个不稳定版本
0.1.0 | 2024 年 7 月 4 日 |
---|
#1127 在 命令行工具
12KB
74 行
tc - 令牌计数
tc
是一个 CLI 工具,用于统计文本文件中的令牌,它是 HuggingFace Tokenizers 库的一个轻量级包装。它类似于 Unix 的 wc
命令,但用于令牌而不是单词。
功能
- 在文件或 stdin 中统计令牌
- 支持多个文件和 glob 模式
- 使用 HuggingFace Tokenizers 中的任何令牌化器
安装
cargo install token-counter
使用方法
使用默认令牌化器(cl100k,GPT-3.5 和 GPT-4 的令牌化器)
tc file1.md file2.md
使用 glob
tc *.md
参数
-m
,--model
:令牌化器模型的 HuggingFace ID(例如,google-bert/bert-base-uncased
)
依赖关系
~15–27MB
~402K SLoC