本页使用了标题或全文手工转换

协方差

维基百科,自由的百科全书
跳转至: 导航搜索

共變異數(Covariance)在概率論統計學中用於衡量兩個變量的总体误差。而方差是协方差的一種特殊情況,即當兩個變量是相同的情況。

期望值分别为E(X)=\muE(Y)=\nu的两个实数随机变量XY 之间的协方差定义为:

\operatorname{cov}(X, Y) = \operatorname{E}((X - \mu) (Y - \nu))

其中E是期望值。它也可以表示为:

\operatorname{cov}(X, Y) = \operatorname{E}(X \cdot Y) - \mu \nu

直观上来看,协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

如果XY统计独立的,那么二者之间的协方差就是0,这是因为

E(X \cdot Y)=E(X) \cdot E(Y)=\mu\nu,

但是反过来并不成立,即如果XY 的协方差为0,二者并不一定是统计独立的。

取决于协方差的相关性η

 \eta = \left| \dfrac{\operatorname{cov}(X, Y)}{\sqrt{\operatorname{var}(X) \cdot \operatorname{var}(Y)}} \right| ,

更准确地说是线性相关性,是一个衡量线性独立的无量纲数,其取值在[0,+1]之间。相关性η = 1时称为“完全线性相关”,此时将Yi对Xi作Y-X 散点图,将得到一组精确排列在直线上的点;相关性数值介于0到1之间时,其越接近1表明线性相关性越好,作散点图得到的点的排布越接近一条直线。

相关性为0(因而协方差也为0)的两个随机变量又被称为是不相关的,或者更准确地说叫作“线性无关”、“线性不相关”,这仅仅表明XY 两随机变量之间没有线性相关性,并非表示它们之间一定没有任何内在的(非线性)函数关系,和前面所说的“X、Y二者并不一定是统计独立的”说法一致。

属性[编辑]

如果XY 是实数随机变量,ab 不是随机变量,那么根据协方差的定义可以得到:

\operatorname{cov}(X, X) = \operatorname{var}(X)
\operatorname{cov}(X, Y) = \operatorname{cov}(Y, X)
\operatorname{cov}(aX, bY) = ab\, \operatorname{cov}(X, Y)

对于随机变量序列X1, ..., XnY1, ..., Ym,有

\operatorname{cov}\left(\sum_{i=1}^n {X_i}, \sum_{j=1}^m{Y_j}\right) =  \sum_{i=1}^n{\sum_{j=1}^m{\operatorname{cov}\left(X_i, Y_j\right)}}

对于随机变量序列X1, ..., Xn,有

\operatorname{var}\left(\sum_{i=1}^n X_i \right) = \sum_{i=1}^n \operatorname{var}(X_i) + 2\sum_{i,j\,:\,i<j} \operatorname{cov}(X_i,X_j)

协方差矩阵[编辑]

分别为mn标量元素的列向量随机变量XY,二者对应的期望值分别为μ与ν,这两个变量之间的协方差定义为m×n 矩阵

\operatorname{cov}(X, Y) = \operatorname{E}((X-\mu)(Y-\nu)^\top).

两个向量变量的协方差cov(X, Y)与cov(Y, X)互为转置矩阵

协方差有时也称为是两个随机变量之间“线性独立性”的度量,但是这个含义与线性代数中严格的线性独立性线性独立不同。

参见[编辑]