2个版本
0.1.1 | 2022年10月19日 |
---|---|
0.1.0 | 2020年1月4日 |
#807 在 数据结构
1MB
126 行
Bayesic
类似于NaiveBayes分类器的字符串匹配库,但针对许多可能的类别进行了优化。
特别适用于您有两个大型名称/标题/描述列表需要进行匹配的情况。
性能
我进行这个项目是为了学习Rust,同时也想通过创建Rust扩展来提高https://github.com/mmmries/bayesic的性能。我已经添加了一些针对小型和大型数据集(例如60k条记录)的训练和分类基准。
以下是我笔记本电脑上当前cargo bench
的结果
分类
test large_classify_one_word ... bench: 3,179 ns/iter (+/- 106)
test large_classify_three_words ... bench: 5,861 ns/iter (+/- 210)
test small_classify_one_word ... bench: 76 ns/iter (+/- 3)
test small_classify_three_words ... bench: 197 ns/iter (+/- 4)
训练
test train_large ... bench: 59,907,091 ns/iter (+/- 1,243,374)
test train_small ... bench: 103,207 ns/iter (+/- 4,065)