#binding #tokenizer #sentence #unsupervised #text #sentence-piece-processor

sentencepiece

sentencepiece 分词器的绑定

22 个版本

0.11.2 2023 年 7 月 22 日
0.11.1 2023 年 3 月 19 日
0.10.0 2022 年 10 月 11 日
0.8.2 2022 年 7 月 30 日
0.1.3 2020 年 2 月 7 日

机器学习 中排名第 117

Download history 90/week @ 2024-03-14 59/week @ 2024-03-21 113/week @ 2024-03-28 88/week @ 2024-04-04 107/week @ 2024-04-11 152/week @ 2024-04-18 162/week @ 2024-04-25 347/week @ 2024-05-02 268/week @ 2024-05-09 362/week @ 2024-05-16 276/week @ 2024-05-23 364/week @ 2024-05-30 1544/week @ 2024-06-06 1937/week @ 2024-06-13 2524/week @ 2024-06-20 3322/week @ 2024-06-27

每月下载量 9,412
6 软件包中使用(直接使用 3 个)

MIT/Apache 许可

2MB
26K SLoC

C++ 24K SLoC // 0.1% comments Rust 1K SLoC // 0.0% comments Bitbake 370 SLoC // 0.5% comments Shell 4 SLoC

本软件包将 sentencepiece 库绑定。sentencepiece 是一个无监督文本分词器。

本软件包的主要数据结构是 SentencePieceProcessor,用于对句子进行分词

use sentencepiece::SentencePieceProcessor;

let spp = SentencePieceProcessor::open("testdata/toy.model").unwrap();
let pieces = spp.encode("I saw a girl with a telescope.").unwrap()
  .into_iter().map(|p| p.piece).collect::<Vec<_>>();
assert_eq!(pieces, vec!["▁I", "▁saw", "▁a", "▁girl", "▁with",
  "▁a", "▁t", "el", "es", "c", "o", "pe", "."]);

依赖关系