#tokenizer #tantivy #api #token #stream #charge #tokenizer-api

summavy-tokenizer-api

summavy的Tokenizer API

1个不稳定版本

0.1.0 2023年1月12日

#8 in #charge


用于 summavy

MIT 许可证

7KB
125

#Tokenizer-API

一个用于将分词器与tantivy接口的API。

为了不破坏现有分词器的支持,API将保持稳定。


lib.rs:

分词器负责将文本切割成流式令牌,以便索引。这是一个独立的crate,因此实现者无需为每个新的tantivy版本进行更新。

要添加对分词器的支持,实现 Tokenizer trait。检查tantivy仓库中的示例。

依赖

~0.4–1MB
~22K SLoC