#nlp #tokenizer #bytepiece #deeplearning

bytepiece_rs

Rust 实现的 Bytepiece 分词器

7 个版本

0.2.2 2023年11月12日
0.2.1 2023年10月17日
0.1.0 2023年9月20日
0.0.3 2023年9月20日

#1099文本处理

Download history 20/week @ 2024-04-03

111 每月下载
用于 bytepiece

MIT 许可证

1MB
335 代码行

bytepiece-rs

用法

use bytepice_rs::Tokenizer;

let tokenizer = Tokenizer::new();
// or load a custom model
let tokenizer = Tokenizer::load_from("/path/to/model");
let text = "今天天气不错";
let ids = tokenizer.encode(text, false, false, alpha=0.0);
assert_eq!(ids, vec![40496, 45268, 39432]);
let text2 = tokenizer.decode(ids);
assert_eq!(text2, text);

基准测试 & 测试

cargo test
cargo bench -- --plotting-backend gnuplot

依赖

~7–14MB
~161K SLoC