6 个版本
0.3.2 | 2020年12月16日 |
---|---|
0.3.0 | 2020年12月7日 |
0.2.1 | 2020年11月26日 |
0.1.1 | 2020年11月23日 |
#1940 in 文本处理
每月下载 33 次
5MB
192 行
word-segmenters: Rust 中的快速英语分词
此crate已重命名。请参阅 instant-segment 以获取最新更新。
word-segmenters 是一个快速的 Apache-2.0 英语分词库。它基于 Grant Jenkins 编写的 Python wordsegment 项目,该项目又基于 Peter Norvig 的《Beautiful Data》一书中自然语言语料库数据章节中的代码(Segaran 和 Hammerbacher,2009 年)。
此存储库中的数据文件来源于 Thorsten Brants 和 Alex Franz 描述的 Google Web Trillion Word Corpus,并由 Linguistic Data Consortium 分发。请注意,此数据 "仅可用于语言教育和研究",因此对于任何其他用途,您应获取不同的数据集。
对于此存储库中包含的微基准测试,word-segmenters 比 Python 实现快约 17 倍。计划进行进一步优化 - 请参阅 问题。API 已经过精心设计,以便多个分割可以共享底层状态(主要是单语和双语映射),以允许并行使用。