1 个不稳定版本
| 0.1.0 | 2024 年 7 月 4 日 |
|---|
#1127 在 命令行工具
12KB
74 行
tc - 令牌计数
tc 是一个 CLI 工具,用于统计文本文件中的令牌,它是 HuggingFace Tokenizers 库的一个轻量级包装。它类似于 Unix 的 wc 命令,但用于令牌而不是单词。
功能
- 在文件或 stdin 中统计令牌
- 支持多个文件和 glob 模式
- 使用 HuggingFace Tokenizers 中的任何令牌化器
安装
cargo install token-counter
使用方法
使用默认令牌化器(cl100k,GPT-3.5 和 GPT-4 的令牌化器)
tc file1.md file2.md
使用 glob
tc *.md
参数
-m,--model:令牌化器模型的 HuggingFace ID(例如,google-bert/bert-base-uncased)
依赖关系
~15–27MB
~402K SLoC