#chinese #convert #hanzi #localization #traditional #simplified

character_converter

将繁体中文转换为简体中文,反之亦然,并对文本进行分词

12个版本 (稳定版)

2.1.5 2023年11月10日
2.1.4 2022年10月12日
2.1.3 2022年9月10日
2.1.2 2022年8月2日
0.1.6 2020年5月13日

#374 in 文本处理

Download history • Rust 包仓库 53/week @ 2024-04-22 • Rust 包仓库 42/week @ 2024-04-29 • Rust 包仓库 18/week @ 2024-05-06 • Rust 包仓库 27/week @ 2024-05-13 • Rust 包仓库 57/week @ 2024-05-20 • Rust 包仓库 39/week @ 2024-05-27 • Rust 包仓库 58/week @ 2024-06-03 • Rust 包仓库 24/week @ 2024-06-10 • Rust 包仓库 88/week @ 2024-06-17 • Rust 包仓库 65/week @ 2024-06-24 • Rust 包仓库 245/week @ 2024-07-01 • Rust 包仓库 41/week @ 2024-07-08 • Rust 包仓库 23/week @ 2024-07-15 • Rust 包仓库 41/week @ 2024-07-22 • Rust 包仓库 171/week @ 2024-07-29 • Rust 包仓库 20/week @ 2024-08-05 • Rust 包仓库

每月258次下载
2 crate 中使用

MIT 许可证

2.5MB
274

character_converter


关于

将繁体中文转换为简体中文,反之亦然。检查字符串脚本以确定字符串是繁体中文还是简体中文。

此包还包括一个最大匹配分词器。

用法

extern crate character_converter;

use character_converter::{is_traditional, is_simplified, traditional_to_simplified, simplified_to_traditional, tokenize};

let traditional_text = "歐洲";
let simplified_text = "欧洲";

// Check script
assert!(is_traditional(traditional_text));

assert!(!is_simplified(traditional_text));

// Convert script
let result_three = traditional_to_simplified(traditional_text);
assert_eq!(result_three, simplified_text);

let result_four = simplified_to_traditional(simplified_text);
assert_eq!(result_four, traditional_text);

// Tokenize
let string = "好好学习天天向上.";
let tokens = vec!["好好", "学习", "天天", "向上"];
assert_eq!(tokens, tokenize(string));

基准测试

使用夜间基准测试功能运行基准测试

cargo +nightly bench --features=bench

许可证

MIT

依赖

~2MB
~19K SLoC