1个不稳定版本
0.1.0 | 2022年2月10日 |
---|
#491 in #machine-learning
26KB
587 行
logreduce-tokenizer
构建
python setup.py build
export PYTHONPATH=$(pwd)/build/lib
基准测试
python benches/bench.py
性能测试
RUSTFLAGS="-C target-cpu=native" cargo build --release
构建命令行界面
RUSTFLAGS="-C target-cpu=native" cargo build --example logreduce-tokenizer-cli --release
lib.rs
:
此库为logreduce项目提供分词函数。
目标是替换可变词汇为固定令牌(例如 sha256://...
转换为 %HASH
)。
依赖项
~5.5MB
~100K SLoC