6 个版本 (3 个重大更新)
0.4.0 | 2022 年 9 月 2 日 |
---|---|
0.3.0 | 2022 年 8 月 1 日 |
0.2.1 | 2022 年 6 月 4 日 |
0.2.0 | 2022 年 4 月 23 日 |
0.1.1 | 2022 年 4 月 13 日 |
1221 在 文本处理 中排名
每月下载量 634
在 2 个Crates中使用(通过vibrato)
59KB
1.5K SLoC
🦞 爬虫鸟:字符级双数组字典
概述
爬虫鸟是一个使用字符级双数组字典的自然语言词典库。实现针对多字节字符字符串进行了优化,您可以在字符串如日语或中文上享受快速的文本处理。
例如,在大型IPADIC+Neologd日语词典上,爬虫鸟比其他Rust库有更好的时间空间权衡。
详细的实验设置和其他结果可在Wiki上找到。
能做什么
- 键值映射:爬虫鸟存储一组字符串键,并映射任意整数值。
- 精确匹配:爬虫鸟支持对输入键的快速查找。
- 前缀搜索:爬虫鸟支持快速前缀搜索,可用于列出文本中出现的所有键。
数据结构
爬虫鸟包含两种字典实现
crawdad::Trie
是标准字典形式,通常提供最快的查询。crawdad::MpTrie
是最小前缀字典形式,对于长字符串来说内存效率更高。
许可
许可协议为以下之一
- Apache License,版本 2.0 (LICENSE-APACHE 或 https://apache.ac.cn/licenses/LICENSE-2.0)
- MIT 许可证 (LICENSE-MIT 或 http://opensource.org/licenses/MIT)
任选其一。
对于 bench/data
下的软件,请遵循每个软件的许可条款。
致谢
本软件的初始版本由LegalForce,Inc.开发,但不是官方支持的产品。
贡献
除非您明确声明,否则根据Apache-2.0许可证定义,您有意提交以包含在作品中的任何贡献都应双许可如上,不附加任何额外条款或条件。