#double-array #sentence-piece #darts #precompiled-charsmap

spm_precompiled

此软件包旨在模拟 https://github.com/google/sentencepiece 中的 Dart::DoubleArray 结构及其 Normalizer。该软件包非常专业,不适合通用用途。

5 个版本

0.1.4 2022年5月30日
0.1.3 2021年7月19日
0.1.2 2020年9月17日
0.1.1 2020年9月15日
0.1.0 2020年9月15日

#841开发工具

Download history 30565/week @ 2024-03-14 32533/week @ 2024-03-21 28356/week @ 2024-03-28 35183/week @ 2024-04-04 35652/week @ 2024-04-11 39380/week @ 2024-04-18 36809/week @ 2024-04-25 41008/week @ 2024-05-02 37521/week @ 2024-05-09 53978/week @ 2024-05-16 51915/week @ 2024-05-23 57076/week @ 2024-05-30 57343/week @ 2024-06-06 58672/week @ 2024-06-13 57904/week @ 2024-06-20 45990/week @ 2024-06-27

231,492 每月下载量
78 个软件包 中使用 (直接使用 2 个)

Apache-2.0

2MB
16K SLoC

Crate API

spm_precompiled

此软件包旨在模拟 https://github.com/google/sentencepiece 中的 Dart::DoubleArray 结构及其 Normalizer。其主要目的是与 tokenizers 一起使用,tokenizers 是一个 Rust 库,旨在为使用 HuggingFace 的 transformers 库提供对字符串进行标记化的工具。

此软件包非常专业,不适合通用用途。

算法的核心是读取 spm 的二进制 precompiled_charsmap


lib.rs:

此软件包旨在模拟 https://github.com/google/sentencepiece 中的 Dart::DoubleArray 结构及其 Normalizer。其主要目的是与 tokenizers 一起使用,tokenizers 是一个 Rust 库,旨在为使用 HuggingFace 的 transformers 库提供对字符串进行标记化的工具。

此软件包非常专业,不适合通用用途。

算法的核心是读取 spm 的二进制 precompiled_charsmap

依赖关系

~2–2.9MB
~54K SLoC