Dice系数:修订间差异
删除的内容 添加的内容
Zhang1989cn(留言 | 贡献) ←建立内容为“{{Merge|Sørensen similarity index|date=August 2011}} '''Dice's 系数''', 根据 Lee Raymond Dice<ref>{{cite journal |last=Dice |first=Lee R. ...”的新頁面 |
(没有差异)
|
2012年5月26日 (六) 12:25的版本
建議此條目或章節與Sørensen similarity index合并。(討論) |
Dice's 系数, 根据 Lee Raymond Dice[1] 命名,也称作 Dice 系数, 是一种集合相似度度量函数:
它和Sørensen 相似度指数相同, 偶尔也称作Sørensen-Dice系数。 它在形式上和Jaccard指数没多大区别,但是有些不同的性质。
和Jaccard类似,它的范围为0到1。 与Jaccard不同的是,相应的差异函数
不是一个合适的距离度量措施,因为它没有三角形不等性的性质。例如给定 {a}, {b}, 和 {a,b}, 前两个集合的距离为1, 而第三个集合和其他任意两个集合的距离为三分之一。
与Jaccard类似, 集合操作可以用两个向量 A 和B的操作来表示:
上式给出了两个向量的距离输出,也给出了更一般情况下向量之间的相似度度量措施。
在信息检索中, 给定关键词集合X 和Y ,相似度定义为两倍的共同信息(重叠部分)除以基数的总和 :[2]
当作为字符串之间的相似度度量时, 计算两个字符串之间的系数, x 和y,使用 bigrams 公式如下:[3]
其中nt 是两个字符串共有的bigrams的个数, nx 是 x中bigrams的个数 ,ny 是 y中bigrams的个数。例如要计算下面两个字符串之间的相似度:
night
nacht
我们可以在各个单词中得出如下bigrams集合:
- {
ni
,ig
,gh
,ht
} - {
na
,ac
,ch
,ht
}
每个集合有4个元素, 这个两个集合只有一个相同的元素: ht
.
代入公式我们可以计算出, s = (2 • 1) / (4 + 4) = 0.25.
同见
維基教科書中的相關電子教程:Strings/Dice's coefficient
参考文献
- ^ Dice, Lee R. Measures of the Amount of Ecologic Association Between Species. Ecology. 1945, 26 (3): 297–302. JSTOR 1932409. doi:10.2307/1932409.
- ^ van Rijsbergen, Cornelis Joost. Information Retrieval. London: Butterworths. 1979. ISBN 3-642-12274-4.
- ^ Kondrak, Grzegorz; Marcu, Daniel; and Knight, Kevin. Cognates Can Improve Statistical Translation Models (PDF). Proceedings of HLT-NAACL 2003: Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics: 46–48. 2003.