11 个不稳定版本 (5 个破坏性更新)
0.7.0 | 2024年1月17日 |
---|---|
0.6.1 | 2023年8月28日 |
0.5.0 | 2023年7月4日 |
0.3.3 | 2023年3月14日 |
0.1.2 | 2022年11月22日 |
#282 in 文本处理
每月下载量 78
用于 tantivy-ik
1MB
2K SLoC
ik-rs
ik-analyzer for Rust
用法
添加到 Cargo.toml
[dependencies]
ik-rs = "0.7.0"
中文分词
#[cfg(test)]
mod test {
use ik_rs::core::ik_segmenter::{IKSegmenter, TokenMode};
#[test]
pub fn test_ik() {
let mut ik = IKSegmenter::new();
let text = "中华人民共和国";
let tokens = ik.tokenize(text, TokenMode::INDEX); // TokenMode::SEARCH
let mut token_texts = Vec::new();
for token in tokens.iter() {
println!("{:?}", token);
token_texts.push(token.get_lexeme_text());
}
assert_eq!(
token_texts,
vec![
"中华人民共和国",
"中华人民",
"中华",
"华人",
"人民共和国",
"人民",
"共和国",
"共和",
"国"
]
)
}
}
基准测试
高性能
cargo bench
ik_tokenize_benchmark time: [19.366 µs 19.572 µs 19.850 µs]
change: [-1.5364% -0.4029% +0.7357%] (p = 0.51 > 0.05)
Tantivy 用法
使用 tantivy-ik 项目
欢迎 Rust 开发者和搜索引擎开发者加入我们,一起维护此项目!
您可以提交 PR 或问题...
并 star⭐此项目
依赖
~2–9MB
~78K SLoC