44 个版本 (23 个破坏性版本)
0.32.2 | 2024 年 6 月 29 日 |
---|---|
0.30.0 | 2024 年 4 月 13 日 |
0.29.0 | 2024 年 3 月 18 日 |
0.27.2 | 2023 年 12 月 30 日 |
0.1.0 | 2020 年 2 月 20 日 |
#740 在 文本处理
12,027 每月下载量
用于 24 个 Crates(直接使用 4 个)
84KB
2K SLoC
Lindera ko-dic Builder
Lindera 的 ko-dic 字典构建器。
字典版本
此存储库包含 mecab-ko-dic。
字典格式
关于 mecab-ko-dic 所使用的字典格式和词性标记的信息记录在 此 Google 电子表格 中,该表格可通过 mecab-ko-dic 的 仓库说明 访问。
注意 ko-dic 的特征列比 NAIST JDIC 少一个,并且具有完全不同的信息集(例如,不提供单词的“原形”)。
标记是稍微修改了由 세종(Sejong)指定的标记,无论那是什么。Sejong 到 mecab-ko-dic 标记名称的映射在上述链接的电子表格的 태그 v2.0
选项卡中给出。
电子表格的 사전 형식 v2.0
选项卡中完全(用韩文)指定了字典格式。任何空白值默认为 *
。
索引 | 名称(韩文) | 名称(英文) | 备注 |
---|---|---|---|
0 | 표면 | Surface | |
1 | 왼쪽 문맥 ID | Left context ID | |
2 | 오른쪽 문맥 ID | Right context ID | |
3 | 비용 | Cost | |
4 | 품사 태그 | part-of-speech tag | 参见电子表格上的 태그 v2.0 选项卡 |
5 | 意义类别 | meaning | (例子太少,无法确定) |
6 | 形容词性 | 存在与否 | T 表示真;F 表示假;否则 * |
7 | 阅读 | reading | 通常与表面匹配,但对于外来词(如汉字词)可能不同 |
8 | 类型 | type | 以下之一:Inflect (活用);Compound (复合名词);或 Preanalysis (预分析) |
9 | 第一个词素 | first part-of-speech | 例如,给定词性标签 "VV+EM+VX+EP",将返回 VV |
10 | 最后一个词素 | last part-of-speech | 例如,给定词性标签 "VV+EM+VX+EP",将返回 EP |
11 | 表达式 | expression | 活用,复合名词,预分析如何组成的字段 – 字段说明用法、复合名词和关键分析如何组织 |
用户字典格式(CSV)
简单版本
索引 | 名称(日语) | 名称(英文) | 备注 |
---|---|---|---|
0 | 표면 | Surface | |
1 | 품사 태그 | part-of-speech tag | 参见电子表格上的 태그 v2.0 选项卡 |
2 | 阅读 | reading | 通常与表面匹配,但对于外来词(如汉字词)可能不同 |
详细版本
索引 | 名称(韩文) | 名称(英文) | 备注 |
---|---|---|---|
0 | 표면 | Surface | |
1 | 왼쪽 문맥 ID | Left context ID | |
2 | 오른쪽 문맥 ID | Right context ID | |
3 | 비용 | Cost | |
4 | 품사 태그 | part-of-speech tag | 参见电子表格上的 태그 v2.0 选项卡 |
5 | 意义类别 | meaning | (例子太少,无法确定) |
6 | 形容词性 | 存在与否 | T 表示真;F 表示假;否则 * |
7 | 阅读 | reading | 通常与表面匹配,但对于外来词(如汉字词)可能不同 |
8 | 类型 | type | 以下之一:Inflect (活用);Compound (复合名词);或 Preanalysis (预分析) |
9 | 第一个词素 | first part-of-speech | 例如,给定词性标签 "VV+EM+VX+EP",将返回 VV |
10 | 最后一个词素 | last part-of-speech | 例如,给定词性标签 "VV+EM+VX+EP",将返回 EP |
11 | 表达式 | expression | 活用,复合名词,预分析如何组成的字段 – 字段说明用法、复合名词和关键分析如何组织 |
12 | - | - | 在12之后,可以自由扩展。 |
如何使用 ko-dic 字典
有关 lindera
命令的更多详细信息,请参阅以下URL
API 参考文档
API 参考文档可用。请参阅以下URL
依赖关系
~9MB
~212K SLoC