15 个版本 (破坏性)

0.32.2	2024年6月29日
0.30.0	2024年4月13日
0.29.0	2024年3月18日
0.27.2	2023年12月30日
0.23.0	2023年2月23日

#1395 在文本处理

5,321 每月下载量
用于 4 个 Crates（2 个直接使用）

MIT 许可证

385KB
9K SLoC

Lindera Filter

Lindera 的字符和标记过滤器。

字符过滤器

日语迭代标记字符过滤器

将日语水平迭代标记（odoriji）标准化为其扩展形式。支持迭代标记序列。在遇到非法迭代标记序列时，实现会原样输出非法源字符，不考虑其脚本。例如，对于输入 "?ゝ"，我们得到 "???"，尽管问号不是平假名。

映射字符过滤器

使用指定的字符映射替换字符，并纠正结果变化到偏移量。匹配是贪婪的（在给定点的最长模式匹配获胜）。允许替换为空字符串。

正则表达式字符过滤器

使用正则表达式作为替换字符串目标的字符过滤器。

Unicode 标准化字符过滤器

使用指定的标准化形式进行 Unicode 标准化以标准化输入文本，该形式为 NFC、NFD、NFKC 或 NFKD 之一。

标记过滤器

日语基本形式标记过滤器

用形态学词典中注册的基本形式替换术语文本。这作为动词和形容词的词干提取器。

日语复合词标记过滤器

将具有指定词性标签的连续标记复合成一个单独的标记。这对于处理未在形态学词典中注册的复合词很有用。

日语片假名词干标记过滤器

通过删除结尾的长音（U+30FC）来标准化以长音结尾的常见片假名字符拼写变体。只有长度超过最小长度的片假名字符才会进行词干提取。

日语保留标签标记过滤器

仅保留具有指定词性标签的标记。

日语数字标记过滤器

将表示日语数字的标记（包括汉字数字）转换为阿拉伯数字。

日语阅读形式标记过滤器

将标记的文本替换为在形态学词典中注册的文本的阅读形式。阅读形式为片假名。

日语停用词标记过滤器

删除具有指定词性标签的标记。

保留单词标记过滤器

仅保留指定文本的标记。

韩语保留标签标记过滤器

仅保留具有指定词性标签的标记。

韩文阅读形式令牌过滤器

将令牌的文本替换为形态字典中注册的文本阅读。

韩文停用词标记过滤器

删除具有指定词性标签的标记。

长度标记过滤器

仅保留具有指定文本字符数的标记。

小写标记过滤器

将标记文本转换为小写。

映射标记过滤器

用指定的字符映射替换字符。

停用词标记过滤器

移除指定的文本标记。

大写标记过滤器

将标记文本转换为大写。

API 参考

API参考可用。请参阅以下URL

lindera-filter

依赖关系

~15MB
~331K SLoC