4 个版本

0.1.3 2023年7月6日
0.1.2 2020年10月19日
0.1.1 2020年8月20日
0.1.0 2020年8月20日

文本处理 中排名第 374

每月下载量 22

Apache-2.0 OR MIT

70KB
1.5K SLoC

rust-pragmatic-segmenter version

Rust 版本 pySBD v3.1.0 和 Ruby pragmatic_segmenter文档

rust-pragmatic-segmenter 是基于规则的 SBD。它使用大量的正则表达式来分割句子。

use pragmatic_segmenter::Segmenter;

let segmenter = Segmenter::new()?;
let result: Vec<_> = segmenter.segment("Hi Mr. Kim. Let's meet at 3 P.M.").collect();
//=> vec!["Hi Mr. Kim. ", "Let's meet at 3 P.M."]

如何构建

sudo apt install -y libclang-dev
cargo build

待办事项

  • 完美匹配 pySBD 的行为(当前:99%)
  • 支持除英语以外的语言
  • 移除包含向前和向后引用的正则表达式
  • 尝试 Intel Hyperscan
  • 修复 pySBD 的错误,可能向上游发送补丁
  • 优化复制和分配
  • 使用适当的错误类型而不是 Boxed 错误
  • 从 pySBD 和 ruby pragmatic_segmenter 导入测试用例

 


rust-pragmatic-segmenter 主要在 Apache 许可证(版本 2.0)MIT 许可证 的条款下分发。有关详细信息,请参阅 COPYRIGHT

依赖关系

~7MB
~160K SLoC