K平均算法

维基百科,自由的百科全书
跳转至: 导航搜索

k-means algorithm算法是一个聚类算法,把n个对象根据他们的属性分为k个分割,k < n。它与处理混合正态分布最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。

V = \sum_{i=1}^{k} \sum_{x_j \in S_i} (x_j - \mu_i)^2

它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。假设有k个群组Si, i=1,2,...,k。μi是群组Si内所有元素xj的重心,或叫中心点。

参考资料[编辑]

  • J. B. MacQueen (1967): "Some Methods for classification and Analysis of Multivariate Observations", Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and Probability, Berkeley, University of California Press, 1:281-297
  • J. A. Hartigan (1975) "Clustering Algorithms". Wiley.
  • J. A. Hartigan and M. A. Wong (1979) "A K-Means Clustering Algorithm", Applied Statistics, Vol. 28, No. 1, p100-108.
  • D. ArthurS. Vassilvitskii (2006): "How Slow is the k-means Method?," Proceedings of the 2006 Symposium on Computational Geometry (SoCG).

外部链接[编辑]