#nlp #chinese #segmenation

jieba-rs

在Rust中实现的Jieba中文分词

41次发布

0.7.0 2024年4月16日
0.6.8 2023年7月16日
0.6.7 2022年10月3日
0.6.6 2021年11月9日
0.2.3 2018年7月6日

#63文本处理

Download history 4766/week @ 2024-04-28 5894/week @ 2024-05-05 5832/week @ 2024-05-12 5741/week @ 2024-05-19 5373/week @ 2024-05-26 5814/week @ 2024-06-02 5454/week @ 2024-06-09 5296/week @ 2024-06-16 5971/week @ 2024-06-23 6163/week @ 2024-06-30 6181/week @ 2024-07-07 5081/week @ 2024-07-14 5731/week @ 2024-07-21 5604/week @ 2024-07-28 5291/week @ 2024-08-04 5395/week @ 2024-08-11

22,339 每月下载量
18 个包中使用 (直接使用13个)

MIT 许可证

4.5MB
2K SLoC

jieba-rs

GitHub Actions codecov Crates.io docs.rs

🚀 通过在GitHub上赞助我 帮助我成为全职开源开发者

在Rust中实现的Jieba中文分词

安装

将其添加到您的 Cargo.toml

[dependencies]
jieba-rs = "0.6"

然后您就可以使用了。如果您使用的是Rust 2015,则还必须在包根目录中添加 extern crate jieba_rs

示例

use jieba_rs::Jieba;

fn main() {
    let jieba = Jieba::new();
    let words = jieba.cut("我们中出了一个叛徒", false);
    assert_eq!(words, vec!["我们", "", "", "", "一个", "叛徒"]);
}

启用额外功能

  • default-dict 特性启用嵌入式词典,此特性默认启用
  • tfidf 特性启用TF-IDF关键词提取器
  • textrank 特性启用TextRank关键词提取器
[dependencies]
jieba-rs = { version = "0.6", features = ["tfidf", "textrank"] }

运行基准测试

cargo bench --all-features

基准测试:与cppjieba比较

jieba-rs 绑定

许可证

此作品在MIT许可证下发布。许可证副本提供在LICENSE文件中。

依赖

~3–5MB
~89K SLoC