4 个版本
0.1.3 | 2023年7月6日 |
---|---|
0.1.2 | 2020年10月19日 |
0.1.1 | 2020年8月20日 |
0.1.0 | 2020年8月20日 |
在 文本处理 中排名第 374
每月下载量 22 次
70KB
1.5K SLoC
rust-pragmatic-segmenter
Rust 版本 pySBD v3.1.0 和 Ruby pragmatic_segmenter。 文档
rust-pragmatic-segmenter 是基于规则的 SBD。它使用大量的正则表达式来分割句子。
use pragmatic_segmenter::Segmenter;
let segmenter = Segmenter::new()?;
let result: Vec<_> = segmenter.segment("Hi Mr. Kim. Let's meet at 3 P.M.").collect();
//=> vec!["Hi Mr. Kim. ", "Let's meet at 3 P.M."]
如何构建
sudo apt install -y libclang-dev
cargo build
待办事项
- 完美匹配 pySBD 的行为(当前:99%)
- 支持除英语以外的语言
- 移除包含向前和向后引用的正则表达式
- 尝试 Intel Hyperscan
- 修复 pySBD 的错误,可能向上游发送补丁
- 优化复制和分配
- 使用适当的错误类型而不是 Boxed 错误
- 从 pySBD 和 ruby pragmatic_segmenter 导入测试用例
rust-pragmatic-segmenter 主要在 Apache 许可证(版本 2.0) 和 MIT 许可证 的条款下分发。有关详细信息,请参阅 COPYRIGHT。
依赖关系
~7MB
~160K SLoC