#nlp #sentence-piece #machine-learning #tokenizer

无需std sentencepiece-model

由SentencePiece protobuf定义生成的SentencePiece模型解析器

4个版本

0.1.3 2024年7月16日
0.1.2 2024年7月4日
0.1.1 2024年7月2日
0.1.0 2023年11月18日

977解析器实现 中排名

Download history 298/week @ 2024-06-30 5/week @ 2024-07-07 105/week @ 2024-07-14 2/week @ 2024-07-21 2/week @ 2024-07-28

每月109 次下载

BSD-2-Clause

15KB
235 代码行

sentencepiece-model

Crates.io Docs.rs

SentencePiece模型解析器 由SentencePiece protobuf定义生成。

use sentencepiece_model::SentencePieceModel;

let model = SentencePieceModel::from_file("tests/t5-spiece.model")?;
assert_eq!(model.pieces.len(), 32000);
assert_eq!(model.trainer()?.unk_id(), 2);

用法

[dependencies]
sentencepiece-model = "0.1"

sentencepiece-model 使用 prost-buildprotoc 从SentencePiece protobuf定义生成Rust代码。如果在路径中未找到现有的 protoc 二进制文件,构建脚本将在第一次构建期间从 protobuf版本 下载它。


lib.rs:

由SentencePiece protobuf定义生成的SentencePiece模型解析器。

有关解析和访问sentencepiece模型的入口点,请参阅 SentencePieceModel

use sentencepiece_model::SentencePieceModel;

let model = SentencePieceModel::from_file("tests/t5-spiece.model")?;
assert_eq!(model.pieces.len(), 32000);
assert_eq!(model.trainer().unwrap().unk_id(), 2);

依赖项

~0.2–2.4MB
~39K SLoC