5个版本
0.1.4 | 2023年7月17日 |
---|---|
0.1.3 | 2021年3月27日 |
0.1.2 | 2021年2月10日 |
0.1.1 | 2021年2月6日 |
0.1.0 | 2021年2月6日 |
在文本处理类目下排名第412
每月下载量1,892
在5个crate中使用(通过nlprule)
43KB
455 行
SRX
这是一个简单且速度合理的Rust实现,用于文本分割的文本分割规则交换(SRX)2.0标准。 srx
并非完全符合该标准。
该crate旨在分割纯文本,因此会忽略标记信息(如 <formathandle>
和 segmentsubflows
)。
由于不遵循SRX规范,相同的 <rule>
规则的重复匹配无法找到,这可能导致某些边缘情况的行为不同。
关于正则表达式的说明
该crate使用regex
crate进行正则表达式的解析和执行。 regex
crate与SRX规范中的正则表达式标准基本兼容。然而,某些元字符(如 \Q
和 \E
)不支持。
为了仍然可以使用包含不受支持的规则的文件,并解析如segment.srx
(来自LanguageTool)的有用SRX文件,该文件通过例如使用前瞻和后顾的方式不符合标准,srx
将忽略无效正则表达式的 <rule>
元素,并通过 srx.errors()
函数提供相关信息。
依赖项
~2–3.5MB
~58K SLoC