5 个版本
0.1.4 | 2022年5月30日 |
---|---|
0.1.3 | 2021年7月19日 |
0.1.2 | 2020年9月17日 |
0.1.1 | 2020年9月15日 |
0.1.0 | 2020年9月15日 |
#841 在 开发工具
231,492 每月下载量
在 78 个软件包 中使用 (直接使用 2 个)
2MB
16K SLoC
spm_precompiled
此软件包旨在模拟 https://github.com/google/sentencepiece 中的 Dart::DoubleArray 结构及其 Normalizer。其主要目的是与 tokenizers 一起使用,tokenizers 是一个 Rust 库,旨在为使用 HuggingFace 的 transformers 库提供对字符串进行标记化的工具。
此软件包非常专业,不适合通用用途。
算法的核心是读取 spm 的二进制 precompiled_charsmap
。
lib.rs
:
此软件包旨在模拟 https://github.com/google/sentencepiece 中的 Dart::DoubleArray 结构及其 Normalizer。其主要目的是与 tokenizers 一起使用,tokenizers 是一个 Rust 库,旨在为使用 HuggingFace 的 transformers 库提供对字符串进行标记化的工具。
此软件包非常专业,不适合通用用途。
算法的核心是读取 spm 的二进制 precompiled_charsmap
。
依赖关系
~2–2.9MB
~54K SLoC