#日语 #Unicode #NLP #日本

漢字

一个用于处理和分析日本文本,特别是漢字的库

4 个稳定版本

2.0.0 2022年3月19日
1.1.0 2020年8月25日
1.0.1 2020年6月15日
1.0.0 2020年5月31日

#129 in 国际化(i18n)

Download history 9/week @ 2024-03-11 41/week @ 2024-04-01 27/week @ 2024-04-22 2/week @ 2024-05-06 15/week @ 2024-05-13 5/week @ 2024-05-20 8/week @ 2024-06-03 16/week @ 2024-06-10 34/week @ 2024-06-17 23/week @ 2024-06-24

81 每月下载量

MIT 许可证

55KB
760

漢字

Tests

一个用于处理和分析日本文本,特别是漢字的库。它可以用来根据日本漢字能力検定協会(日本漢字能力検定協会)定义的级别分类,找到给定文本中漢字的密度。

这里提供的漢字数据与基金会官方2020年2月图表相匹配。请注意,截至2020年,一些漢字的级别已更改(pdf)。

有关进一步说明和使用示例,请参阅文档

有关此库的 Haskell 版本,请参阅此处


kanji 是一个分析日本文本的库。以漢字为中心,可以根据日本漢字能力検定協会指定的“级别”计算文本中漢字的密度或难度。

“级别”截至2020年2月。注意:根据协会2月的报告,一些级别的分配漢字已更改

有关库的详细使用方法,请参阅文档

kanji 的 Haskell 版本是此处

示例·例子

要找出属于某些文本的每个考试级别的漢字数量

要计算某个文本中的漢字属于哪个级别:

let level_table = kanji::level_table();
let texts = vec![
    "非常に面白い文章",
    "誰でも読んだ事のある名作",
    "飛行機で空を飛ぶ",
];

for t in texts {
    let counts = kanji::kanji_counts(t, &level_table);
    println!("{:#?}", counts);
}

依赖项

~175KB