#neural-network #machine-learning #deep-learning #tokenizer #pytorch #sentencizer

nnsplit

一个使用神经网络分割文本的工具。用于句子边界检测、复合分割等。

29 个版本

0.5.9 2023 年 3 月 5 日
0.5.8 2021 年 7 月 23 日
0.5.7 2021 年 3 月 16 日
0.5.2 2020 年 11 月 1 日
0.2.2 2020 年 2 月 26 日

#206 in 机器学习

MIT 许可证

33KB
665

NNSplit

PyPI Crates.io npm CI License

一个使用神经网络分割文本的工具。主要应用是句子边界检测,但例如德语的复合分割也得到支持。

功能

  • 鲁棒:不依赖于正确的标点、拼写和大小写。请参见指标
  • 小巧:NNSplit 使用字节级 LSTM,因此权重小(< 4MB)并且可以为每种可编码的 Unicode 语言训练模型。
  • 便携:NNSplit 使用 Rust 编写,并为 Rust、Python 和 JavaScript(浏览器和 Node.js)提供了绑定。请在使用部分了解如何开始。
  • 快速:比 Spacy 句子分割快 2 倍,请参见基准
  • 多语言:NNSplit 目前有 9 种不同语言的模型(德语、英语、法语、挪威语、瑞典语、简体中文、土耳其语、俄语和乌克兰语)。在演示中试用它们。

文档已迁移到 NNSplit 网站:https://bminixhofer.github.io/nnsplit

许可证

NNSplit 在 MIT 许可证下授权。

依赖关系

~2–13MB
~165K SLoC