为 hamming-space 词汇袋生成二进制词频位数组
作者:Geordon Worley
6 在 #lsh
7KB 57 行
通过使用 hamming-dict 在 hamming 空间中创建尽可能分散的码字。
hamming-dict
对于每个输入键,在字典中找到其最近邻,并在袋中设置相应的位。如果袋中设置的位足够多,将增加设置位的阈值单词出现次数,以平衡哈希。
~340–590KB ~11K SLoC