#tokenizer #tantivy #token #stream #charge #indexing #summavy

summayvy-tokenizer-api

summayvy 的分词器 API

1 个不稳定版本

0.1.0 2023 年 1 月 12 日

#9 in #charge

MIT 许可证

7KB
125

#Tokenizer-API

一个用于将分词器与 tantivy 交互的 API。

为了不破坏现有分词器的支持,API 将保持稳定。


lib.rs:

分词器负责将文本切割成流式的标记,以便进行索引。这是一个与 tantivy 分离的 crate,因此实现者不需要为每个新的 tantivy 版本进行更新。

要添加对分词器的支持,实现 Tokenizer trait。查看 tantivy 仓库 中的示例。

依赖关系

~0.4–1MB
~23K SLoC