#dictionary #chinese #builder #morphological #cc-cedict

lindera-cc-cedict-builder

CC-CEDICT的中文形态学词典构建器

39个版本 (21个破坏性更新)

0.32.2 2024年6月29日
0.30.0 2024年4月13日
0.29.0 2024年3月18日
0.27.2 2023年12月30日
0.12.2 2022年3月23日

#1717 in 文本处理

Download history 5257/week @ 2024-05-04 4816/week @ 2024-05-11 5863/week @ 2024-05-18 4385/week @ 2024-05-25 4931/week @ 2024-06-01 4542/week @ 2024-06-08 4441/week @ 2024-06-15 4583/week @ 2024-06-22 4272/week @ 2024-06-29 3219/week @ 2024-07-06 2894/week @ 2024-07-13 3033/week @ 2024-07-20 2970/week @ 2024-07-27 2752/week @ 2024-08-03 2860/week @ 2024-08-10 2080/week @ 2024-08-17

每月10,976次下载
用于 24 个crate(直接使用4个)

MIT 许可证

82KB
2K SLoC

Lindera CC-CEDICT Builder

License: MIT Join the chat at https://gitter.im/lindera-morphology/lindera Crates.io

Lindera构建CC-CEDICT词典。

词典格式

有关unidic-mecab词典格式和词性标注的详细信息,请参阅手册

索引 名称(中文) 名称(英文) 说明
0 表面形式 表面
1 左语境ID 左语境ID
2 右语境ID 右语境ID
3 成本 成本
4 词类 主要词性分类
5 词类1 中间词性分类
6 词类2 小词性分类
7 词类3 精细词性分类
8 并音 拼音
9 繁体字 传统
10 简体字 简化
11 定义 定义

用户词典格式(CSV)

简单版本

索引 名称(日语) 名称(英文) 说明
0 表面形式 表面
1 词类 主要词性分类
2 并音 拼音

详细版本

索引 名称(日语) 名称(英文) 说明
0 表面形式 表面
1 左语境ID 左语境ID
2 右语境ID 右语境ID
3 成本 成本
4 词类 词性
5 词类1 词性子类别1
6 词类2 词性子类别2
7 词类3 词性子类别3
8 并音 拼音
9 繁体字 传统
10 简体字 简化
11 定义 定义
12 - - 12之后可以自由扩展。

如何使用CC-CEDICT词典

有关lindera命令的更多详细信息,请参阅以下URL

API参考

API参考可用。请参阅以下URL

依赖项

~9.5MB
~215K SLoC