#text #ngrams #detect #language #category #extract #sample

bin+lib textcat

简单的库,用于检测文本类别。它可以用来检测给定文本的语言

10 个版本

0.3.2 2022年1月5日
0.3.1 2022年1月5日
0.2.0 2022年1月5日
0.1.5 2021年4月10日
0.1.3 2021年3月24日

1625 in 文本处理


用于 lingo

MIT 许可证

18KB
422 代码行

textcat-rs

从文本中提取 N-Grams 的库。这是一个底层库。 Lingo 是基于这个库构建的,用于在文本中检测人类语言。

此库提供使用样本文本进行训练的工具,提取文本中的 N-Grams,创建样本和训练类别。训练数据可以序列化以供以后使用。该库还提供工具以检测给定文本最接近哪个预训练类别。


lib.rs:

Textcat

通过 ngrams 提取和分类文本的库。

依赖项

~1.2–2MB
~41K SLoC