#语言检测 #文本 #命令行工具 #简短 #分类 #代码 #分类

app lingua-cli

lingua-cli 是一个语言分类命令行工具,使用 lingua-rs 库

3 个版本 (破坏性更新)

0.4.0 2024 年 6 月 10 日
0.3.0 2024 年 6 月 4 日
0.2.1 2024 年 6 月 3 日

#35国际化(i18n)

Download history 235/week @ 2024-06-01 227/week @ 2024-06-08 30/week @ 2024-06-15 4/week @ 2024-06-22

每月 107 次下载

GPL-3.0-only

27KB
243

Crate GitHub release Project Status: Active – The project has reached a stable, usable state and is being actively developed. Technology Readiness Level 7/9 - Release Candidate - Technology ready enough and in initial use by end-users in intended scholarly environments. Further validation in progress.

Lingua-cli

这是一个小巧的语言检测命令行工具,它是 Rust 的 lingua-rs 库的简单封装。请到那里阅读详细的文档。一个独特的特点是,这个库在处理短文本方面比许多其他库表现得更好。

安装

确保您已安装 Rust 的包管理器 cargo,然后一次性下载、安装和编译 lingua-cli,如下所示:

$cargo install lingua-cli

用法

通过参数传递文本

$lingua-cli bonjour à tous

通过标准输入传递文本

$echo"bonjour à tous" | lingua-cli

使用 -l 选项和 iso-639-1 语言代码来限制您想要检测的语言。限制列表可以提高准确性。使用 -L 来查看支持的 languages 列表。

$echo"bonjour à tous" | lingua-cli -l "fr,de,es,nl,en"

要逐行分类输入,请传递 -n

$echo -e "bonjour à tous\nhola a todos\nhallo allemaal" | lingua-cli -n -l "fr,de,es,nl,en"

fr      0.9069164472389637      bonjour à tous
es      0.918273871035807       hola a todos
nl      0.988293648761749       hallo allemaal

输出为 TSV,包括 iso-639-1 语言代码、置信度分数,以及逐行模式下的行副本。

您还可以使用 --multi 选项对混合文本进行分类。这将输出 UTF-8 字节偏移量。

$ lingua-cli --multi -l fr,de,en < /tmp/test.txt
0       23      fr      Parlez-vous français? 
23      73      de      Ich spreche ein bisschen spreche Französisch ja. 
73      110     en      A little bit is better than nothing.

依赖关系

~18MB
~432K SLoC