15 个版本 (破坏性)
0.32.2 | 2024年6月29日 |
---|---|
0.30.0 | 2024年4月13日 |
0.29.0 | 2024年3月18日 |
0.27.2 | 2023年12月30日 |
0.23.0 | 2023年2月23日 |
#1395 在 文本处理
5,321 每月下载量
用于 4 个 Crates(2 个直接使用)
385KB
9K SLoC
Lindera Filter
Lindera 的字符和标记过滤器。
字符过滤器
日语迭代标记字符过滤器
将日语水平迭代标记(odoriji)标准化为其扩展形式。支持迭代标记序列。在遇到非法迭代标记序列时,实现会原样输出非法源字符,不考虑其脚本。例如,对于输入 "?ゝ",我们得到 "???",尽管问号不是平假名。
映射字符过滤器
使用指定的字符映射替换字符,并纠正结果变化到偏移量。匹配是贪婪的(在给定点的最长模式匹配获胜)。允许替换为空字符串。
正则表达式字符过滤器
使用正则表达式作为替换字符串目标的字符过滤器。
Unicode 标准化字符过滤器
使用指定的标准化形式进行 Unicode 标准化以标准化输入文本,该形式为 NFC、NFD、NFKC 或 NFKD 之一。
标记过滤器
日语基本形式标记过滤器
用形态学词典中注册的基本形式替换术语文本。这作为动词和形容词的词干提取器。
日语复合词标记过滤器
将具有指定词性标签的连续标记复合成一个单独的标记。这对于处理未在形态学词典中注册的复合词很有用。
日语片假名词干标记过滤器
通过删除结尾的长音(U+30FC)来标准化以长音结尾的常见片假名字符拼写变体。只有长度超过最小长度的片假名字符才会进行词干提取。
日语保留标签标记过滤器
仅保留具有指定词性标签的标记。
日语数字标记过滤器
将表示日语数字的标记(包括汉字数字)转换为阿拉伯数字。
日语阅读形式标记过滤器
将标记的文本替换为在形态学词典中注册的文本的阅读形式。阅读形式为片假名。
日语停用词标记过滤器
删除具有指定词性标签的标记。
保留单词标记过滤器
仅保留指定文本的标记。
韩语保留标签标记过滤器
仅保留具有指定词性标签的标记。
韩文阅读形式令牌过滤器
将令牌的文本替换为形态字典中注册的文本阅读。
韩文停用词标记过滤器
删除具有指定词性标签的标记。
长度标记过滤器
仅保留具有指定文本字符数的标记。
小写标记过滤器
将标记文本转换为小写。
映射标记过滤器
用指定的字符映射替换字符。
停用词标记过滤器
移除指定的文本标记。
大写标记过滤器
将标记文本转换为大写。
API 参考
API参考可用。请参阅以下URL
依赖关系
~15MB
~331K SLoC