#nlp #tokenizer #command-line-tool #cli

应用 token-counter

wc 对令牌:使用 HuggingFace 令牌化器统计文件中的令牌

1 个不稳定版本

0.1.0 2024 年 7 月 4 日

#1127命令行工具

MIT 许可证

12KB
74

tc - 令牌计数

tc 是一个 CLI 工具,用于统计文本文件中的令牌,它是 HuggingFace Tokenizers 库的一个轻量级包装。它类似于 Unix 的 wc 命令,但用于令牌而不是单词。

功能

  • 在文件或 stdin 中统计令牌
  • 支持多个文件和 glob 模式
  • 使用 HuggingFace Tokenizers 中的任何令牌化器

安装

cargo install token-counter

使用方法

使用默认令牌化器(cl100k,GPT-3.5 和 GPT-4 的令牌化器)

tc file1.md file2.md

使用 glob

tc *.md

参数

  • -m--model:令牌化器模型的 HuggingFace ID(例如,google-bert/bert-base-uncased

依赖关系

~15–27MB
~402K SLoC