#wildcard #search #edit #character #trie #suffix #text

spyglass

受生物信息学启发的文档搜索引擎

2个版本 (1个稳定版)

1.1.0 2021年1月9日
0.1.0 2021年1月3日

#1927 in 文本处理

MIT 许可证

71KB
878

Spyglass

使用从文本句子构建的Suffix Trie搜索文本的工具。

搜索类型

  1. 单字符通配符

te?t 匹配 testtext

  1. 多字符通配符

mush* 匹配 mushroommushymush

相当于正则表达式中的 \w*

  1. 多词通配符

this ** rabbit 匹配 this rabbitthis enormous rabbitthis big furry rabbit

  1. 使用编辑距离进行近似匹配

he repl'd 使用编辑距离2匹配 he replied

  1. 使用可忽略字符列表进行搜索

例如,忽略元音和标点符号 wracked 匹配 rack'dwrecked

待办事项

  • 允许确定性打印 - hashmap键从不排序,因此每次打印键时都是随机顺序
  • 使用?通配符进行匹配
  • 使用*通配符进行匹配
  • 使用**通配符进行匹配
  • 返回正确的匹配对象,包括匹配的行号
  • 处理同一行/部分的多个匹配,例如,当编辑距离很大时

依赖关系

~4–13MB
~140K SLoC