2 个不稳定版本
0.2.0 | 2023年10月8日 |
---|---|
0.1.0 | 2023年10月7日 |
在 国际化 (i18n) 中排名 #162
85KB
160 行
kanji_hanzi_converter
将日语假名转换为中文汉字(简体和繁体)
中文字符映射表归功于
http://lotus.kuee.kyoto-u.ac.jp/~chu/pubdb/LREC2012/kanji_mapping_table.txt
Chenhui Chu, Toshiaki Nakazawa and Sadao Kurohashi:
Chinese Characters Mapping Table of Japanese, Traditional Chinese and Simplified Chinese
In Proceedings of the Eighth Conference on International Language Resources and Evaluation
(LREC2012), pp.2149-2152, Istanbul, Turkey, (2012.5).
由于映射包含可疑条目,因此还基于日本假名列表(2310个条目)进行额外过滤。
待办事项
根据仓库中的 GB2312 列表过滤简体汉字条目。
lib.rs
:
在日语假名字符、繁体汉字和简体汉字之间进行转换。
请注意,转换中存在一些歧义
例如,繁体中的“壹”可以是日语假名中的“一”或“壹”。
另一个歧义的例子是来自基础数据集的条目。正确的条目通常是第5055行,而第3365行看起来很奇怪。日文 繁体 简体 3365 學 學 学 5055 學 學 學 5383 斈 學 學
因此,只有也出现在假名列表(2310个字符)中的日本字符才被认为是有效的。