3 个版本 (破坏性更新)
0.4.0 | 2024 年 6 月 10 日 |
---|---|
0.3.0 | 2024 年 6 月 4 日 |
0.2.1 | 2024 年 6 月 3 日 |
#35 在 国际化(i18n) 中
每月 107 次下载
27KB
243 行
Lingua-cli
这是一个小巧的语言检测命令行工具,它是 Rust 的 lingua-rs 库的简单封装。请到那里阅读详细的文档。一个独特的特点是,这个库在处理短文本方面比许多其他库表现得更好。
安装
确保您已安装 Rust 的包管理器 cargo
,然后一次性下载、安装和编译 lingua-cli
,如下所示:
$cargo install lingua-cli
用法
通过参数传递文本
$lingua-cli bonjour à tous
通过标准输入传递文本
$echo"bonjour à tous" | lingua-cli
使用 -l
选项和 iso-639-1 语言代码来限制您想要检测的语言。限制列表可以提高准确性。使用 -L
来查看支持的 languages 列表。
$echo"bonjour à tous" | lingua-cli -l "fr,de,es,nl,en"
要逐行分类输入,请传递 -n
。
$echo -e "bonjour à tous\nhola a todos\nhallo allemaal" | lingua-cli -n -l "fr,de,es,nl,en"
fr 0.9069164472389637 bonjour à tous
es 0.918273871035807 hola a todos
nl 0.988293648761749 hallo allemaal
输出为 TSV,包括 iso-639-1 语言代码、置信度分数,以及逐行模式下的行副本。
您还可以使用 --multi
选项对混合文本进行分类。这将输出 UTF-8 字节偏移量。
$ lingua-cli --multi -l fr,de,en < /tmp/test.txt
0 23 fr Parlez-vous français?
23 73 de Ich spreche ein bisschen spreche Französisch ja.
73 110 en A little bit is better than nothing.
依赖关系
~18MB
~432K SLoC