#machine-learning #parser #logreduce

logreduce-tokenizer

为logreduce项目提供的分词函数

1个不稳定版本

0.1.0 2022年2月10日

#491 in #machine-learning

Apache-2.0

26KB
587

logreduce-tokenizer

构建

python setup.py build
export PYTHONPATH=$(pwd)/build/lib

基准测试

python benches/bench.py

性能测试

RUSTFLAGS="-C target-cpu=native" cargo build --release

构建命令行界面

RUSTFLAGS="-C target-cpu=native" cargo build --example logreduce-tokenizer-cli --release

lib.rs:

此库为logreduce项目提供分词函数。

目标是替换可变词汇为固定令牌(例如 sha256://... 转换为 %HASH)。

依赖项

~5.5MB
~100K SLoC