#language #language-detection #detect #format-text #hint #text #cld2

已弃用 bcld2

使用 cld2 库检测文本中使用的自然语言

1 个不稳定版本

使用旧的 Rust 2015

0.0.1 2024年7月18日

#format-text 中排名 16

Download history 59/week @ 2024-07-12 58/week @ 2024-07-19 15/week @ 2024-07-26 2/week @ 2024-08-02

每月下载量 134

无许可证

19KB
223

Build Status Latest version License

已弃用,建议使用 whatlang,这是一个本机 Rust 库且更小。如果您有使用此代码的强烈理由,请提出问题。简单的 PR,特别是错误修复,仍然会被阅读并可能合并。

此 Rust 库使用来自 Chromium 项目的 cld2 库检测字符串的语言。

要使用它,请将以下行添加到您的 Cargo.toml 文件中,并运行 cargo update

[dependencies.cld2]
git = "git://github.com/emk/rust-cld2"

然后您可以按以下方式调用它

// Put these two lines the top of the file.
extern crate cld2;
use cld2::{detect_language, Format, Reliable, Lang};

let text = "It is an ancient Mariner,
And he stoppeth one of three.
'By thy long grey beard and glittering eye,
Now wherefore stopp'st thou me?";

assert_eq!((Some(Lang("en")), Reliable),
           detect_language(text, Format::Text));

您还可以传递语言检测提示并请求更详细的输出。有关详细信息,请参阅 API 文档

贡献

一如既往,欢迎提交拉取请求!请尽量简化补丁,并包含单元测试;这样会使合并它们变得容易得多。

如果您想在其他平台上构建 C/C++ 代码,请参阅 cld2-sys/build.rb此构建脚本指南。您可能需要调整一些编译器选项。请随时提问;我希望这个库能够跨平台。

在您的第一次提交信息中,请包含以下声明

我将我在此项目中作出的任何和所有版权利益贡献给公共领域。我做出这一贡献是为了公众的利益,并损害我的继承人及其继任者的利益。我打算将此贡献视为放弃在版权法下现在和未来对软件的所有权利的公开行为。

这使得我们可以保持库的法律无负担,并供每个人免费使用。

许可证

原始的cld2库是在Apache License Version 2.0下分发的。这也涵盖了cld2-sys/src/wrapper.h中的大部分代码。所有的新代码都按照Unlicense的描述发布到公有领域。

依赖项

约22MB
约411K SLoC