6 个版本 (3 个重大更新)

0.4.0 2022 年 9 月 2 日
0.3.0 2022 年 8 月 1 日
0.2.1 2022 年 6 月 4 日
0.2.0 2022 年 4 月 23 日
0.1.1 2022 年 4 月 13 日

1221文本处理 中排名

Download history 186/week @ 2024-04-04 156/week @ 2024-04-11 204/week @ 2024-04-18 147/week @ 2024-04-25 111/week @ 2024-05-02 164/week @ 2024-05-09 156/week @ 2024-05-16 272/week @ 2024-05-23 143/week @ 2024-05-30 242/week @ 2024-06-06 229/week @ 2024-06-13 275/week @ 2024-06-20 178/week @ 2024-06-27 150/week @ 2024-07-04 141/week @ 2024-07-11 106/week @ 2024-07-18

每月下载量 634
2 个Crates中使用(通过vibrato

MIT/Apache

59KB
1.5K SLoC

🦞 爬虫鸟:字符级双数组字典

Crates.io Documentation Build Status

概述

爬虫鸟是一个使用字符级双数组字典的自然语言词典库。实现针对多字节字符字符串进行了优化,您可以在字符串如日语或中文上享受快速的文本处理。

例如,在大型IPADIC+Neologd日语词典上,爬虫鸟比其他Rust库有更好的时间空间权衡。

详细的实验设置和其他结果可在Wiki上找到。

能做什么

  • 键值映射:爬虫鸟存储一组字符串键,并映射任意整数值。
  • 精确匹配:爬虫鸟支持对输入键的快速查找。
  • 前缀搜索:爬虫鸟支持快速前缀搜索,可用于列出文本中出现的所有键。

数据结构

爬虫鸟包含两种字典实现

  • crawdad::Trie 是标准字典形式,通常提供最快的查询。
  • crawdad::MpTrie 是最小前缀字典形式,对于长字符串来说内存效率更高。

许可

许可协议为以下之一

任选其一。

对于 bench/data 下的软件,请遵循每个软件的许可条款。

致谢

本软件的初始版本由LegalForce,Inc.开发,但不是官方支持的产品。

贡献

除非您明确声明,否则根据Apache-2.0许可证定义,您有意提交以包含在作品中的任何贡献都应双许可如上,不附加任何额外条款或条件。

无运行时依赖

功能