29 个版本
0.5.9 | 2023 年 3 月 5 日 |
---|---|
0.5.8 | 2021 年 7 月 23 日 |
0.5.7 | 2021 年 3 月 16 日 |
0.5.2 | 2020 年 11 月 1 日 |
0.2.2 | 2020 年 2 月 26 日 |
#206 in 机器学习
33KB
665 行
NNSplit
一个使用神经网络分割文本的工具。主要应用是句子边界检测,但例如德语的复合分割也得到支持。
功能
- 鲁棒:不依赖于正确的标点、拼写和大小写。请参见指标。
- 小巧:NNSplit 使用字节级 LSTM,因此权重小(< 4MB)并且可以为每种可编码的 Unicode 语言训练模型。
- 便携:NNSplit 使用 Rust 编写,并为 Rust、Python 和 JavaScript(浏览器和 Node.js)提供了绑定。请在使用部分了解如何开始。
- 快速:比 Spacy 句子分割快 2 倍,请参见基准。
- 多语言:NNSplit 目前有 9 种不同语言的模型(德语、英语、法语、挪威语、瑞典语、简体中文、土耳其语、俄语和乌克兰语)。在演示中试用它们。
文档已迁移到 NNSplit 网站:https://bminixhofer.github.io/nnsplit。
许可证
NNSplit 在 MIT 许可证下授权。
依赖关系
~2–13MB
~165K SLoC