1 个不稳定版本
0.1.0 | 2023年5月10日 |
---|
#187 在 国际化(i18n)
1,898 每月下载量
在 2 crates 中使用
745KB
4.5K SLoC
Whichlang
这是一个旨在实现精确性和性能的语言检测库。
特性
- 无依赖
- 对于短字符串和长字符串,吞吐量超过 100 MB/s。
- 良好的准确率(在我的验证数据集上为 99.5%,但实际效果取决于输入数据的大小。)
它是如何工作的?
它使用多类逻辑回归模型,基于 ASCII 码点的
- 2,3,4-gram 字母
- 码点 / 128
- 对给定类进行稍微智能一点的码点投影。
我们使用哈希技巧,并将这些特征投影到大小为 4_096
的空间中。
逻辑回归在附带的 Python 笔记本中训练,并用于生成 weight.rs
。