#nlp #statistical #restore #letter #model #casing #sentence

bin+lib truecase

使用统计模型恢复任意文本中的正确字母大小写

4 个版本 (2 个破坏性更新)

0.3.1 2023年9月29日
0.3.0 2021年11月17日
0.2.0 2018年5月12日
0.1.0 2018年1月13日

#319 in 机器学习

MIT/Apache

27KB
523

truecase.rs

Latest Version docs

truecase.rs 是用 Rust 编写的一个简单的统计 truecaser。

Truecasing 是恢复文本中的原始字母大小写:例如,将全大写或全小写的文本转换为具有正确句子大小写(首字母大写、专有名词大写等)的文本。

此 crate 通过收集一组训练句子的统计信息,然后使用这些统计信息恢复损坏句子中的正确大小写来解决此问题。它附带一个命令行工具,使统计模型的训练变得简单。

快速使用示例

use truecase::{Model, ModelTrainer};

// build a statistical model from sample sentences
let mut trainer = ModelTrainer::new();
trainer.add_sentence("There are very few writers as good as Shakespeare");
trainer.add_sentence("You and I will have to disagree about this");
trainer.add_sentence("She never came back from USSR");
let model = trainer.into_model();

// use gathered statistics to restore case in caseless text
let truecased_text = model.truecase("i don't think shakespeare was born in ussr");
assert_eq!(truecased_text, "I don't think Shakespeare was born in USSR");

有关更多详细信息,请参阅 文档

许可证

truecase.rs 根据 MIT 许可证或 Apache 许可证 2.0 的条款许可,由您选择。

依赖项

~3.5–5.5MB
~103K SLoC