6 个版本

0.3.2 2020年12月16日
0.3.0 2020年12月7日
0.2.1 2020年11月26日
0.1.1 2020年11月23日

#1940 in 文本处理

每月下载 33 次

Apache-2.0

5MB
192

word-segmenters: Rust 中的快速英语分词

Build status License: Apache 2.0

此crate已重命名。请参阅 instant-segment 以获取最新更新。

word-segmenters 是一个快速的 Apache-2.0 英语分词库。它基于 Grant Jenkins 编写的 Python wordsegment 项目,该项目又基于 Peter Norvig 的《Beautiful Data》一书中自然语言语料库数据章节中的代码(Segaran 和 Hammerbacher,2009 年)。

此存储库中的数据文件来源于 Thorsten Brants 和 Alex Franz 描述的 Google Web Trillion Word Corpus,并由 Linguistic Data Consortium 分发。请注意,此数据 "仅可用于语言教育和研究",因此对于任何其他用途,您应获取不同的数据集。

对于此存储库中包含的微基准测试,word-segmenters 比 Python 实现快约 17 倍。计划进行进一步优化 - 请参阅 问题。API 已经过精心设计,以便多个分割可以共享底层状态(主要是单语和双语映射),以允许并行使用。

依赖项