4 个版本 (2 个破坏性更新)
0.3.1 | 2023年9月29日 |
---|---|
0.3.0 | 2021年11月17日 |
0.2.0 | 2018年5月12日 |
0.1.0 | 2018年1月13日 |
#319 in 机器学习
27KB
523 行
truecase.rs
truecase.rs
是用 Rust 编写的一个简单的统计 truecaser。
Truecasing 是恢复文本中的原始字母大小写:例如,将全大写或全小写的文本转换为具有正确句子大小写(首字母大写、专有名词大写等)的文本。
此 crate 通过收集一组训练句子的统计信息,然后使用这些统计信息恢复损坏句子中的正确大小写来解决此问题。它附带一个命令行工具,使统计模型的训练变得简单。
快速使用示例
use truecase::{Model, ModelTrainer};
// build a statistical model from sample sentences
let mut trainer = ModelTrainer::new();
trainer.add_sentence("There are very few writers as good as Shakespeare");
trainer.add_sentence("You and I will have to disagree about this");
trainer.add_sentence("She never came back from USSR");
let model = trainer.into_model();
// use gathered statistics to restore case in caseless text
let truecased_text = model.truecase("i don't think shakespeare was born in ussr");
assert_eq!(truecased_text, "I don't think Shakespeare was born in USSR");
有关更多详细信息,请参阅 文档。
许可证
truecase.rs 根据 MIT 许可证或 Apache 许可证 2.0 的条款许可,由您选择。
依赖项
~3.5–5.5MB
~103K SLoC