summavy的Tokenizer API
由 Pasha Podolsky 拥有。
#8 in #charge
用于 summavy
7KB 125 行
#Tokenizer-API
一个用于将分词器与tantivy接口的API。
为了不破坏现有分词器的支持,API将保持稳定。
lib.rs
分词器负责将文本切割成流式令牌,以便索引。这是一个独立的crate,因此实现者无需为每个新的tantivy版本进行更新。
要添加对分词器的支持,实现 Tokenizer trait。检查tantivy仓库中的示例。
Tokenizer
~0.4–1MB ~22K SLoC