#语言 #nlp

bin+lib whichlang

一个闪电般快速且轻量级的 Rust 语言检测库

1 个不稳定版本

0.1.0 2023年5月10日

#187国际化(i18n)

Download history 722/week @ 2024-03-14 1055/week @ 2024-03-21 750/week @ 2024-03-28 827/week @ 2024-04-04 541/week @ 2024-04-11 783/week @ 2024-04-18 591/week @ 2024-04-25 453/week @ 2024-05-02 562/week @ 2024-05-09 473/week @ 2024-05-16 388/week @ 2024-05-23 468/week @ 2024-05-30 464/week @ 2024-06-06 537/week @ 2024-06-13 581/week @ 2024-06-20 262/week @ 2024-06-27

1,898 每月下载量
2 crates 中使用

MIT 许可证

745KB
4.5K SLoC

Whichlang

这是一个旨在实现精确性和性能的语言检测库。

特性

  • 无依赖
  • 对于短字符串和长字符串,吞吐量超过 100 MB/s。
  • 良好的准确率(在我的验证数据集上为 99.5%,但实际效果取决于输入数据的大小。)

它是如何工作的?

它使用多类逻辑回归模型,基于 ASCII 码点的

  • 2,3,4-gram 字母
  • 码点 / 128
  • 对给定类进行稍微智能一点的码点投影。

我们使用哈希技巧,并将这些特征投影到大小为 4_096 的空间中。

逻辑回归在附带的 Python 笔记本中训练,并用于生成 weight.rs

无运行时依赖