# 最小哈希

## 雅可比相似度与最小哈希值

${\displaystyle J(A,B)={{|A\cap B|} \over {|A\cup B|}}.}$

Pr[hmin(A) = hmin(B)] = J(A,B).

## 算法

### 耗时分析

|Y|/k估计通过给定集合的两个签名能够在O(k)能够计算出来，因此，当ε and k为常数时，从签名中计算相似度估计的时间也为常数，这样当众多两两相似度需要计算时，该方法在运行时间上与每个集合中元素的完全比较相比，能够有实质性的优化。

## 应用

Schleimer， Wilkerson & Aiken (2003)使用最小哈希技术作为数字文档剽窃检测方法的一部分，他们的方法将文档表示成给定长度的子串集合，将文档划分成更大固定长度的窗口，然后使用子串的最小哈希值作为每个窗口的描述值。如果文本的拷贝部分比两倍窗口尺寸还要长，则该描述值将肯定匹配保存在数据库中众多描述值中的一个，这样那个窗口就可以用来检查有多少内容是拷贝的。[7]

## 参考文献

