#tokenizer #token #counting #different #count #fun #text

app token_trekker_rs

一个有趣且高效的Rust库,用于使用不同的分词器统计文本文件中的标记数量

4个版本

0.1.3 2023年3月22日
0.1.2 2023年3月22日
0.1.1 2023年3月22日
0.1.0 2023年3月22日

#26 in #counting

43 每月下载量

MIT/Apache

15KB
88 代码行

token_trekker_rs

token_trekker_rs 是一个命令行工具,用于使用各种分词器统计目录中所有文件或匹配glob模式的文件中的标记总数。

功能

  • 支持多种分词器选项
  • 并行处理以加快标记计数
  • 以彩色表格输出结果

安装

要从crates.io安装 token_trekker_rs,运行以下命令

cargo install token_trekker_rs

从源代码构建

要从源代码构建 token_trekker_rs,首先克隆存储库

git clone https://github.com/1rgs/token_trekker_rs.git
cd token_trekker_rs

然后使用 cargo 构建项目

cargo build --release

编译的二进制文件将在 ./target/release/token-trekker 中可用。

用法

要统计目录中的标记或匹配glob模式的文件的标记,请运行以下命令

token-trekker --path <path_or_glob_pattern> <tokenizer>

将 <path_or_glob_pattern> 替换为要处理的目录的路径或文件的glob模式,以及可用的分词器选项之一

  • p50k-base
  • p50k-edit
  • r50k-base
  • cl100k-base
  • gpt2

例如

token_trekker_rs --path "path/to/files/*.txt" p50k-base

依赖项

~25–40MB
~473K SLoC