1 个不稳定版本
0.5.0 | 2022年5月15日 |
---|
#747 在 机器学习
53KB
1K SLoC
Oh No! More Lemmas
ohnomore 包含两个工具,用于将 TüBa-D/Z 风格的 lemmas 集成到语言处理管道中。第一个工具 ohnomore-preproc
将 TüBa-D/Z lemmas 转换为更适合机器学习管道的 lemmas。例如
- 删除了替代词形还原。
- 删除了可分离的前缀标记。
- 当它们可分离时,删除了可分离的前缀。
- 将特殊反身 lemmas #refl 替换为小写形式。
- 将截断 lemmas 替换为其形式。
第二个工具 ohnomore
执行相反的转换(尽可能多)。
依赖关系
~6.5MB
~112K SLoC