#形态学 #分析 #

lindera-filter

Lindera 的字符和标记过滤器

15 个版本 (破坏性)

0.32.2 2024年6月29日
0.30.0 2024年4月13日
0.29.0 2024年3月18日
0.27.2 2023年12月30日
0.23.0 2023年2月23日

#1395文本处理

Download history 156/week @ 2024-04-15 237/week @ 2024-04-22 262/week @ 2024-04-29 507/week @ 2024-05-06 662/week @ 2024-05-13 873/week @ 2024-05-20 951/week @ 2024-05-27 907/week @ 2024-06-03 1059/week @ 2024-06-10 1342/week @ 2024-06-17 1589/week @ 2024-06-24 1177/week @ 2024-07-01 1434/week @ 2024-07-08 1348/week @ 2024-07-15 1229/week @ 2024-07-22 1211/week @ 2024-07-29

5,321 每月下载量
用于 4 个 Crates(2 个直接使用)

MIT 许可证

385KB
9K SLoC

Lindera Filter

License: MIT Join the chat at https://gitter.im/lindera-morphology/lindera Crates.io

Lindera 的字符和标记过滤器。

字符过滤器

日语迭代标记字符过滤器

将日语水平迭代标记(odoriji)标准化为其扩展形式。支持迭代标记序列。在遇到非法迭代标记序列时,实现会原样输出非法源字符,不考虑其脚本。例如,对于输入 "?ゝ",我们得到 "???",尽管问号不是平假名。

映射字符过滤器

使用指定的字符映射替换字符,并纠正结果变化到偏移量。匹配是贪婪的(在给定点的最长模式匹配获胜)。允许替换为空字符串。

正则表达式字符过滤器

使用正则表达式作为替换字符串目标的字符过滤器。

Unicode 标准化字符过滤器

使用指定的标准化形式进行 Unicode 标准化以标准化输入文本,该形式为 NFC、NFD、NFKC 或 NFKD 之一。

标记过滤器

日语基本形式标记过滤器

用形态学词典中注册的基本形式替换术语文本。这作为动词和形容词的词干提取器。

日语复合词标记过滤器

将具有指定词性标签的连续标记复合成一个单独的标记。这对于处理未在形态学词典中注册的复合词很有用。

日语片假名词干标记过滤器

通过删除结尾的长音(U+30FC)来标准化以长音结尾的常见片假名字符拼写变体。只有长度超过最小长度的片假名字符才会进行词干提取。

日语保留标签标记过滤器

仅保留具有指定词性标签的标记。

日语数字标记过滤器

将表示日语数字的标记(包括汉字数字)转换为阿拉伯数字。

日语阅读形式标记过滤器

将标记的文本替换为在形态学词典中注册的文本的阅读形式。阅读形式为片假名。

日语停用词标记过滤器

删除具有指定词性标签的标记。

保留单词标记过滤器

仅保留指定文本的标记。

韩语保留标签标记过滤器

仅保留具有指定词性标签的标记。

韩文阅读形式令牌过滤器

将令牌的文本替换为形态字典中注册的文本阅读。

韩文停用词标记过滤器

删除具有指定词性标签的标记。

长度标记过滤器

仅保留具有指定文本字符数的标记。

小写标记过滤器

将标记文本转换为小写。

映射标记过滤器

用指定的字符映射替换字符。

停用词标记过滤器

移除指定的文本标记。

大写标记过滤器

将标记文本转换为大写。

API 参考

API参考可用。请参阅以下URL

依赖关系

~15MB
~331K SLoC