43 每月下载量

MIT/Apache

15KB
88 代码行

token_trekker_rs

token_trekker_rs 是一个命令行工具，用于使用各种分词器统计目录中所有文件或匹配glob模式的文件中的标记总数。

功能

要从crates.io安装 token_trekker_rs，运行以下命令

cargo install token_trekker_rs

要从源代码构建 token_trekker_rs，首先克隆存储库

git clone https://github.com/1rgs/token_trekker_rs.git
cd token_trekker_rs

然后使用 cargo 构建项目

cargo build --release

编译的二进制文件将在 ./target/release/token-trekker 中可用。

要统计目录中的标记或匹配glob模式的文件的标记，请运行以下命令

token-trekker --path <path_or_glob_pattern> <tokenizer>

将 <path_or_glob_pattern> 替换为要处理的目录的路径或文件的glob模式，以及可用的分词器选项之一

例如

token_trekker_rs --path "path/to/files/*.txt" p50k-base

~25–40MB
~473K SLoC