1 个不稳定版本
0.1.0 | 2023 年 1 月 12 日 |
---|
#9 in #charge
7KB
125 行
#Tokenizer-API
一个用于将分词器与 tantivy 交互的 API。
为了不破坏现有分词器的支持,API 将保持稳定。
lib.rs
:
分词器负责将文本切割成流式的标记,以便进行索引。这是一个与 tantivy 分离的 crate,因此实现者不需要为每个新的 tantivy 版本进行更新。
要添加对分词器的支持,实现 Tokenizer
trait。查看 tantivy 仓库 中的示例。
依赖关系
~0.4–1MB
~23K SLoC