#line-break #machine-learning #model #organizer #sentence #port #powered

budoux

BudouX的Rust移植版(由机器学习驱动的行断句组织工具)

6个版本

0.1.1 2022年5月15日
0.1.0 2022年5月6日
0.0.4 2022年1月16日

机器学习类别中排名第321

Apache-2.0

105KB
2K SLoC

BudouX-rs

Crates.io API reference Test License

BudouX-rs是BudouX(机器学习驱动的行断句组织工具)的Rust移植版。

注意:此项目包含BudouX项目的交付成果。

注意:BudouX-rs只支持纯文本,不支持HTML输入。

演示

https://sg0hsmt.github.io/budoux-rs/

文档

https://docs.rs/crate/budoux/

使用

使用内部模型分割句子。

let model = budoux::models::default_japanese_model();
let words = budoux::parse(model, "これはテストです。");

assert_eq!(words, vec!["これは", "テストです。"])

从json文件加载模型,并使用加载的模型分割句子。

let file = File::open(path_to_json).unwrap();
let reader = BufReader::new(file);
let model: budoux::Model = serde_json::from_reader(reader).unwrap();
let words = budoux::parse(&model, "これはテストです。");

assert_eq!(words, vec!["これは", "テストです。"])

测试

cargo test

您可以通过act在本地使用GitHub Actions。

act -j test

从原始BudouX生成模型

go generate ./...

注意:生成模型需要Go 1.13或更高版本。

依赖关系

~48KB