#unicode #format #conllu #layer #subcommand #sentence #co-nll-u

app conllu-utils

用于处理 CoNLL-U 依赖格式的小工具

9 个版本

0.1.8 2020 年 12 月 7 日
0.1.7 2020 年 5 月 5 日
0.1.6 2020 年 4 月 18 日
0.1.3 2020 年 3 月 23 日

#1551文本处理

每月 30 次下载

Apache-2.0

46KB
1K SLoC

CoNLL-U 工具

简介

这是一个处理 CoNLL-U 格式文件的实用工具集合。conllu 命令提供了以下子命令

  • accuracy:根据两个语料库计算系统的准确性
  • cleanup:规范化 Unicode 并替换 Unicode 标点符号
  • compare:在单个或多个层上比较两个语料库
  • from-text:将分词文本文件转换为 CoNLL-U。
  • merge:合并 CoNLL-U 文件
  • partition:将 CoNLL-U 文件分割成 N 个文件。
  • shuffle:打乱 CoNLL-U 文件中的句子。
  • to-text:将 CoNLL-U 转换为分词纯文本。

用法

执行子命令时,如果提供 --help 作为参数,将提供用法信息。

依赖关系

~5–14MB
~169K SLoC