22 个版本

0.11.2 2023 年 7 月 22 日
0.11.1 2023 年 3 月 19 日
0.10.0 2022 年 10 月 11 日
0.8.2 2022 年 7 月 30 日
0.1.3 2020 年 2 月 7 日

机器学习 中排名第 117

Download history • Rust 包仓库 90/week @ 2024-03-14 • Rust 包仓库 59/week @ 2024-03-21 • Rust 包仓库 113/week @ 2024-03-28 • Rust 包仓库 88/week @ 2024-04-04 • Rust 包仓库 107/week @ 2024-04-11 • Rust 包仓库 152/week @ 2024-04-18 • Rust 包仓库 162/week @ 2024-04-25 • Rust 包仓库 347/week @ 2024-05-02 • Rust 包仓库 268/week @ 2024-05-09 • Rust 包仓库 362/week @ 2024-05-16 • Rust 包仓库 276/week @ 2024-05-23 • Rust 包仓库 364/week @ 2024-05-30 • Rust 包仓库 1544/week @ 2024-06-06 • Rust 包仓库 1937/week @ 2024-06-13 • Rust 包仓库 2524/week @ 2024-06-20 • Rust 包仓库 3322/week @ 2024-06-27 • Rust 包仓库

每月下载量 9,412
6 软件包中使用(直接使用 3 个)

MIT/Apache 许可

2MB
26K SLoC

C++ 24K SLoC // 0.1% comments • Rust 包仓库 Rust 1K SLoC // 0.0% comments • Rust 包仓库 Bitbake 370 SLoC // 0.5% comments • Rust 包仓库 Shell 4 SLoC • Rust 包仓库

本软件包将 sentencepiece 库绑定。sentencepiece 是一个无监督文本分词器。

本软件包的主要数据结构是 SentencePieceProcessor,用于对句子进行分词

use sentencepiece::SentencePieceProcessor;

let spp = SentencePieceProcessor::open("testdata/toy.model").unwrap();
let pieces = spp.encode("I saw a girl with a telescope.").unwrap()
  .into_iter().map(|p| p.piece).collect::<Vec<_>>();
assert_eq!(pieces, vec!["▁I", "▁saw", "▁a", "▁girl", "▁with",
  "▁a", "▁t", "el", "es", "c", "o", "pe", "."]);

依赖关系