0.1.1	2022年9月26日
0.1.0	2022年9月25日

#2484 在算法

808 每月下载量

MIT/Apache

73KB
1.5K SLoC

find-simdoc

文档中时间效率和内存效率的全对相似度搜索。更详细的描述可以在项目页面上找到。

API文档

文档中时间效率和内存效率的全对相似度搜索。更详细的描述可以在项目页面上找到。

该软件支持文档相似度搜索的所有基本步骤，从特征提取到输出相似对。因此，您可以使用文档文件立即尝试快速的全对相似度搜索。

在特征提取的标记化过程中，您可以在分割单词时指定任何分隔符。这对于存在多个单词定义的语言（如日语或中文）很有用。

时间和内存复杂度是基于局部敏感哈希（LSH）和草图排序方法背后的思想的线性。

LSH可以通过手动指定搜索维度来调整性能，包括精度、时间和内存。您可以根据您的数据集和机器环境灵活地进行搜索。

~3.5MB
~59K SLoC