Dice系数

维基百科,自由的百科全书
(重定向自Dice's 系数
跳转至: 导航搜索

Dice系数, 根据 Lee Raymond Dice[1] 命名,是一种集合相似度度量函数,通常用于计算两个样本的相似度:

s = \frac{2 | X \cap Y |}{| X | + | Y |}

它和Sørensen 相似度指数相同, 也称作Sørensen-Dice系数。 它在形式上和Jaccard指数没多大区别,但是有些不同的性质。

和Jaccard类似,它的范围为0到1。 与Jaccard不同的是,相应的差异函数

d = 1 -  \frac{2 | X \cap Y |}{| X | + | Y |}

不是一个合适的距离度量措施,因为它没有三角形不等性的性质。例如给定 {a}, {b}, 和 {a,b}, 前两个集合的距离为1, 而第三个集合和其他任意两个集合的距离为三分之一。

与Jaccard类似, 集合操作可以用两个向量 AB的操作来表示:

s_v = \frac{2 | A \cdot B |}{| A |^2 + | B |^2}

上式给出了两个向量的距离输出,也给出了更一般情况下向量之间的相似度度量措施。 Dice 系数可以计算两个字符串的相似度:Dice(s1,s2)=2*comm(s1,s2)/(leng(s1)+leng(s2))。 其中,comm (s1,s2)是s1、s2 中相同字符的个数leng(s1),leng(s2)是字符串s1、s2 的长度。

信息检索中, 给定关键词集合XY ,相似度定义为两倍的共同信息(重叠部分)除以基数的总和 :[2]

当作为字符串之间的相似度度量时, 计算两个字符串之间的系数, xy,使用 bigrams 公式如下:[3]

s = \frac{2 n_t}{n_x + n_y}

其中nt 是两个字符串共有的bigrams的个数, nxx中bigrams的个数 ,nyy中bigrams的个数。例如要计算下面两个字符串之间的相似度:

night
nacht

我们可以在各个单词中得出如下bigrams集合:

{ni,ig,gh,ht}
{na,ac,ch,ht}

每个集合有4个元素, 这个两个集合只有一个相同的元素: ht.

代入公式我们可以计算出, s = (2 · 1) / (4 + 4) = 0.25.

同见[编辑]

Wikibooks-logo.svg
您可以在維基教科書中查找此百科条目的相關電子教程:

参考文献[编辑]

  1. ^ Dice, Lee R. Measures of the Amount of Ecologic Association Between Species. Ecology. 1945, 26 (3): 297–302. doi:10.2307/1932409. JSTOR 1932409. 
  2. ^ van Rijsbergen, Cornelis Joost. Information Retrieval. London: Butterworths. 1979. ISBN 3-642-12274-4. 
  3. ^ Kondrak, Grzegorz; Marcu, Daniel; and Knight, Kevin. Cognates Can Improve Statistical Translation Models. Proceedings of HLT-NAACL 2003: Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics. 2003: pp. 46–48. 

参考资料[编辑]