#dictionary #korean #morphological #builder #ko-dic

lindera-ko-dic-builder

ko-dic 的韩国形态字典构建器

44 个版本 (23 个破坏性版本)

0.32.2 2024 年 6 月 29 日
0.30.0 2024 年 4 月 13 日
0.29.0 2024 年 3 月 18 日
0.27.2 2023 年 12 月 30 日
0.1.0 2020 年 2 月 20 日

#740文本处理

Download history 4888/week @ 2024-04-23 4721/week @ 2024-04-30 5370/week @ 2024-05-07 4610/week @ 2024-05-14 5639/week @ 2024-05-21 4706/week @ 2024-05-28 4978/week @ 2024-06-04 4178/week @ 2024-06-11 4573/week @ 2024-06-18 4872/week @ 2024-06-25 3239/week @ 2024-07-02 3340/week @ 2024-07-09 3068/week @ 2024-07-16 2988/week @ 2024-07-23 2859/week @ 2024-07-30 2590/week @ 2024-08-06

12,027 每月下载量
用于 24 个 Crates(直接使用 4 个)

MIT 许可证

84KB
2K SLoC

Lindera ko-dic Builder

License: MIT Join the chat at https://gitter.im/lindera-morphology/lindera Crates.io

Lindera 的 ko-dic 字典构建器。

字典版本

此存储库包含 mecab-ko-dic

字典格式

关于 mecab-ko-dic 所使用的字典格式和词性标记的信息记录在 此 Google 电子表格 中,该表格可通过 mecab-ko-dic 的 仓库说明 访问。

注意 ko-dic 的特征列比 NAIST JDIC 少一个,并且具有完全不同的信息集(例如,不提供单词的“原形”)。

标记是稍微修改了由 세종(Sejong)指定的标记,无论那是什么。Sejong 到 mecab-ko-dic 标记名称的映射在上述链接的电子表格的 태그 v2.0 选项卡中给出。

电子表格的 사전 형식 v2.0 选项卡中完全(用韩文)指定了字典格式。任何空白值默认为 *

索引 名称(韩文) 名称(英文) 备注
0 표면 Surface
1 왼쪽 문맥 ID Left context ID
2 오른쪽 문맥 ID Right context ID
3 비용 Cost
4 품사 태그 part-of-speech tag 参见电子表格上的 태그 v2.0 选项卡
5 意义类别 meaning (例子太少,无法确定)
6 形容词性 存在与否 T 表示真;F 表示假;否则 *
7 阅读 reading 通常与表面匹配,但对于外来词(如汉字词)可能不同
8 类型 type 以下之一:Inflect (活用);Compound (复合名词);或 Preanalysis (预分析)
9 第一个词素 first part-of-speech 例如,给定词性标签 "VV+EM+VX+EP",将返回 VV
10 最后一个词素 last part-of-speech 例如,给定词性标签 "VV+EM+VX+EP",将返回 EP
11 表达式 expression 活用复合名词预分析如何组成的字段 – 字段说明用法、复合名词和关键分析如何组织

用户字典格式(CSV)

简单版本

索引 名称(日语) 名称(英文) 备注
0 표면 Surface
1 품사 태그 part-of-speech tag 参见电子表格上的 태그 v2.0 选项卡
2 阅读 reading 通常与表面匹配,但对于外来词(如汉字词)可能不同

详细版本

索引 名称(韩文) 名称(英文) 备注
0 표면 Surface
1 왼쪽 문맥 ID Left context ID
2 오른쪽 문맥 ID Right context ID
3 비용 Cost
4 품사 태그 part-of-speech tag 参见电子表格上的 태그 v2.0 选项卡
5 意义类别 meaning (例子太少,无法确定)
6 形容词性 存在与否 T 表示真;F 表示假;否则 *
7 阅读 reading 通常与表面匹配,但对于外来词(如汉字词)可能不同
8 类型 type 以下之一:Inflect (活用);Compound (复合名词);或 Preanalysis (预分析)
9 第一个词素 first part-of-speech 例如,给定词性标签 "VV+EM+VX+EP",将返回 VV
10 最后一个词素 last part-of-speech 例如,给定词性标签 "VV+EM+VX+EP",将返回 EP
11 表达式 expression 活用复合名词预分析如何组成的字段 – 字段说明用法、复合名词和关键分析如何组织
12 - - 在12之后,可以自由扩展。

如何使用 ko-dic 字典

有关 lindera 命令的更多详细信息,请参阅以下URL

API 参考文档

API 参考文档可用。请参阅以下URL

依赖关系

~9MB
~212K SLoC