#pyo3 #python #python-bindings #bpe

fastok

Rust 中实现的 BPE,并通过 PyO3 与 Python 绑定

1 个不稳定版本

0.0.1 2023年10月19日

#9#bpe

MIT/Apache 许可

6KB
59 代码行数

💥 fastok

Rust 中实现的 BPE,并通过 PyO3 与 Python 绑定

开发

maturin develop

Python 绑定

>>> from fastok import PreTokenizer

>>> pre_tokenizer = PreTokenizer(model="gpt2")
>>> pre_tokenizer.pre_tokenize_str("My name is Alvaro and I live in Barcelona.")
['My', ' name', ' is', ' Alvaro', ' and', ' I', ' live', ' in', ' Barcelona', '.']
>>> pre_tokenizer.pre_tokenize(["My name is Alvaro and I live in Barcelona.", "I like pizza."])
[['My', ' name', ' is', ' Alvaro', ' and', ' I', ' live', ' in', ' Barcelona', '.'], ['I', ' like', ' pizza', '.']]

依赖

~5–11MB
~107K SLoC