10 个版本
0.3.2 | 2022年1月5日 |
---|---|
0.3.1 | 2022年1月5日 |
0.2.0 | 2022年1月5日 |
0.1.5 | 2021年4月10日 |
0.1.3 | 2021年3月24日 |
1625 in 文本处理
用于 lingo
18KB
422 代码行
textcat-rs
从文本中提取 N-Grams 的库。这是一个底层库。 Lingo 是基于这个库构建的,用于在文本中检测人类语言。
此库提供使用样本文本进行训练的工具,提取文本中的 N-Grams,创建样本和训练类别。训练数据可以序列化以供以后使用。该库还提供工具以检测给定文本最接近哪个预训练类别。
lib.rs
:
Textcat
通过 ngrams 提取和分类文本的库。
依赖项
~1.2–2MB
~41K SLoC