雅卡尔指数

维基百科,自由的百科全书
集合A与B的交集与聯集

雅卡尔指数(英語:Jaccard index),又称为交并比Intersection over Union)、雅卡尔相似系数Jaccard similarity coefficient),是用于比较样本集的相似性与多样性的统计量。雅卡尔系数能够量度有限样本集合的相似度,其定义为两个集合交集大小与并集大小之间的比例:

如果AB完全重合,则定义J(A,B) = 1。于是有

雅卡尔距离Jaccard distance)则用于量度样本集之间的不相似度,其定义为1减去雅卡尔系数,即

此外,亦有人将雅卡尔距离定义两集合对称差的大小与并集大小之间的比例。

雅卡尔距离是所有有限样本集合间的度量[1][2][3]

参见[编辑]

参考文献[编辑]

  1. ^ Sven Kosub, "A note on the triangle inequality for the Jaccard distance" arXiv:1612.02696页面存档备份,存于互联网档案馆
  2. ^ Lipkus, Alan H, A proof of the triangle inequality for the Tanimoto distance, J Math Chem, 1999, 26 (1-3): 263–265 
  3. ^ Levandowsky, Michael; Winter, David, Distance between sets, Nature, 1971, 234 (5): 34–35, doi:10.1038/234034a0