1 个不稳定版本

0.5.0 2022年5月15日

#747机器学习

MIT/Apache

53KB
1K SLoC

Oh No! More Lemmas

ohnomore 包含两个工具,用于将 TüBa-D/Z 风格的 lemmas 集成到语言处理管道中。第一个工具 ohnomore-preproc 将 TüBa-D/Z lemmas 转换为更适合机器学习管道的 lemmas。例如

  • 删除了替代词形还原。
  • 删除了可分离的前缀标记。
  • 当它们可分离时,删除了可分离的前缀。
  • 将特殊反身 lemmas #refl 替换为小写形式。
  • 将截断 lemmas 替换为其形式。

第二个工具 ohnomore 执行相反的转换(尽可能多)。

依赖关系

~6.5MB
~112K SLoC