#语言 #nlp

bin+lib whichlang

一个闪电般快速且轻量级的 Rust 语言检测库

1 个不稳定版本

0.1.0 2023年5月10日

#187国际化(i18n)

Download history • Rust 包仓库 722/week @ 2024-03-14 • Rust 包仓库 1055/week @ 2024-03-21 • Rust 包仓库 750/week @ 2024-03-28 • Rust 包仓库 827/week @ 2024-04-04 • Rust 包仓库 541/week @ 2024-04-11 • Rust 包仓库 783/week @ 2024-04-18 • Rust 包仓库 591/week @ 2024-04-25 • Rust 包仓库 453/week @ 2024-05-02 • Rust 包仓库 562/week @ 2024-05-09 • Rust 包仓库 473/week @ 2024-05-16 • Rust 包仓库 388/week @ 2024-05-23 • Rust 包仓库 468/week @ 2024-05-30 • Rust 包仓库 464/week @ 2024-06-06 • Rust 包仓库 537/week @ 2024-06-13 • Rust 包仓库 581/week @ 2024-06-20 • Rust 包仓库 262/week @ 2024-06-27 • Rust 包仓库

1,898 每月下载量
2 crates 中使用

MIT 许可证

745KB
4.5K SLoC

Whichlang

这是一个旨在实现精确性和性能的语言检测库。

特性

  • 无依赖
  • 对于短字符串和长字符串,吞吐量超过 100 MB/s。
  • 良好的准确率(在我的验证数据集上为 99.5%,但实际效果取决于输入数据的大小。)

它是如何工作的?

它使用多类逻辑回归模型,基于 ASCII 码点的

  • 2,3,4-gram 字母
  • 码点 / 128
  • 对给定类进行稍微智能一点的码点投影。

我们使用哈希技巧,并将这些特征投影到大小为 4_096 的空间中。

逻辑回归在附带的 Python 笔记本中训练,并用于生成 weight.rs

无运行时依赖