22 个版本
0.11.2 | 2023 年 7 月 22 日 |
---|---|
0.11.1 | 2023 年 3 月 19 日 |
0.10.0 | 2022 年 10 月 11 日 |
0.8.2 | 2022 年 7 月 30 日 |
0.1.3 | 2020 年 2 月 7 日 |
在 机器学习 中排名第 117
每月下载量 9,412
在 6 个 软件包中使用(直接使用 3 个)
2MB
26K SLoC
本软件包将 sentencepiece 库绑定。sentencepiece 是一个无监督文本分词器。
本软件包的主要数据结构是 SentencePieceProcessor
,用于对句子进行分词
use sentencepiece::SentencePieceProcessor;
let spp = SentencePieceProcessor::open("testdata/toy.model").unwrap();
let pieces = spp.encode("I saw a girl with a telescope.").unwrap()
.into_iter().map(|p| p.piece).collect::<Vec<_>>();
assert_eq!(pieces, vec!["▁I", "▁saw", "▁a", "▁girl", "▁with",
"▁a", "▁t", "el", "es", "c", "o", "pe", "."]);