协方差矩阵

维基百科,自由的百科全书
跳转至: 导航搜索

统计学概率论中,共變異數矩阵是一个矩阵,其每个元素是各个向量元素之间的共變異數。这是从标量随机变量到高维度随机向量的自然推广。

假设X是以n个标量随机变量组成的列向量

X = \begin{bmatrix}X_1 \\  \vdots \\ X_n \end{bmatrix}

并且\mu_i是其第i个元素的期望值,即, \mu_i = \mathrm{E}(X_i)。共變異數矩阵被定义的第i,j項是如下:

\Sigma_{ij}
= \mathrm{cov}(X_i, X_j) = \mathrm{E}\begin{bmatrix}
(X_i - \mu_i)(X_j - \mu_j)
\end{bmatrix}

即:

\Sigma=\mathrm{E}
\left[
 \left(
 \textbf{X} - \mathrm{E}[\textbf{X}]
 \right)
 \left(
 \textbf{X} - \mathrm{E}[\textbf{X}]
 \right)^\top
\right]
=
\begin{bmatrix}
 \mathrm{E}[(X_1 - \mu_1)(X_1 - \mu_1)] & \mathrm{E}[(X_1 - \mu_1)(X_2 - \mu_2)] & \cdots & \mathrm{E}[(X_1 - \mu_1)(X_n - \mu_n)] \\ \\
 \mathrm{E}[(X_2 - \mu_2)(X_1 - \mu_1)] & \mathrm{E}[(X_2 - \mu_2)(X_2 - \mu_2)] & \cdots & \mathrm{E}[(X_2 - \mu_2)(X_n - \mu_n)] \\ \\
 \vdots & \vdots & \ddots & \vdots \\ \\
 \mathrm{E}[(X_n - \mu_n)(X_1 - \mu_1)] & \mathrm{E}[(X_n - \mu_n)(X_2 - \mu_2)] & \cdots & \mathrm{E}[(X_n - \mu_n)(X_n - \mu_n)]
\end{bmatrix}

矩阵中的第(i,j)个元素是X_iX_j的共變異數。这个概念是对于标量随机变量方差的一般化推广。

术语与符号分歧[编辑]

共變異數矩阵有不同的术语。有些统计学家,沿用了概率学家威廉·费勒的说法,把这个矩阵称之为随机向量X的變異數(Variance of random vector X),这是从一维随机变量方差到高维随机向量的自然推广。另外一些则把它称为共變異數矩阵(Covariance matrix),因为它是随机向量里头每个标量元素的协方差的矩阵。不幸的是,这两种术语带来了一定程度上的冲突:

随机向量X的方差(Variance of random vector X)定义有如下两种形式:


\operatorname{var}(\textbf{X})
=
\mathrm{E}
\left[
 (\textbf{X} - \mathrm{E} [\textbf{X}])
 (\textbf{X} - \mathrm{E} [\textbf{X}])^\top
\right]



\operatorname{cov}(\textbf{X})
=
\mathrm{E}
\left[
 (\textbf{X} - \mathrm{E}[\textbf{X}])
 (\textbf{X} - \mathrm{E}[\textbf{X}])^\top
\right]

协方差矩阵(Covariance matrix)定义如下:


\operatorname{cov}(\textbf{X},\textbf{Y})
=
\mathrm{E}
\left[
 (\textbf{X} - \mathrm{E}[\textbf{X}])
 (\textbf{Y} - \mathrm{E}[\textbf{Y}])^\top
\right]

第一个记号可以在威廉·费勒的广受推崇的两册概率论及其应用的书中找到。两个术语除了记法之外并没有不同。

性质[编辑]

\Sigma=\mathrm{E} \left[ \left( \textbf{X} - \mathrm{E}[\textbf{X}] \right) \left( \textbf{X} - \mathrm{E}[\textbf{X}] \right)^\top \right] \mu = \mathrm{E}(\textbf{X}) 满足下边的基本性质:

  1.  \Sigma = \mathrm{E}(\mathbf{X X^\top}) - \mathbf{\mu}\mathbf{\mu^\top}
  2.  \operatorname{var}(\mathbf{a^\top}\mathbf{X}) = \mathbf{a^\top} \operatorname{var}(\mathbf{X}) \mathbf{a}
  3.  \mathbf{\Sigma} \geq 0
  4.  \operatorname{var}(\mathbf{A X} + \mathbf{a}) = \mathbf{A} \operatorname{var}(\mathbf{X}) \mathbf{A^\top}
  5.  \operatorname{cov}(\mathbf{X},\mathbf{Y}) = \operatorname{cov}(\mathbf{Y},\mathbf{X})^\top
  6.  \operatorname{cov}(\mathbf{X_1} + \mathbf{X_2},\mathbf{Y}) = \operatorname{cov}(\mathbf{X_1},\mathbf{Y}) + \operatorname{cov}(\mathbf{X_2}, \mathbf{Y})
  7. p = q,則有\operatorname{cov}(\mathbf{X} + \mathbf{Y}) = \operatorname{var}(\mathbf{X}) + \operatorname{cov}(\mathbf{X},\mathbf{Y}) + \operatorname{cov}(\mathbf{Y}, \mathbf{X}) + \operatorname{var}(\mathbf{Y})
  8. \operatorname{cov}(\mathbf{AX}, \mathbf{BX}) = \mathbf{A} \operatorname{cov}(\mathbf{X}, \mathbf{X}) \mathbf{B}^\top
  9. \mathbf{X}\mathbf{Y} 是独立的,則有\operatorname{cov}(\mathbf{X}, \mathbf{Y}) = 0
  10.  \Sigma = \Sigma^\top


其中 \mathbf{X}, \mathbf{X_1}\mathbf{X_2} 是随机\mathbf{(p \times 1)}向量, \mathbf{Y} 是随机\mathbf{(q \times 1)}向量, \mathbf{a}\mathbf{(p \times 1)} 向量, \mathbf{A}\mathbf{B}\mathbf{(q \times p)} 矩阵。

尽管共變異數矩阵很简单,可它却是很多领域里的非常有力的工具。它能导出一个变换矩阵,这个矩阵能使数据完全去相关(decorrelation)。从不同的角度看,也就是说能够找出一组最佳的基以紧凑的方式来表达数据。(完整的证明请参考瑞利商)。 这个方法在统计学中被称为主成分分析(principal components analysis),在图像处理中称为Karhunen-Loève 变换(KL-变换)。

複随机向量[编辑]

均值为\mu的複随机标量变量的方差定义如下(使用共轭複数):


\operatorname{var}(z)
=
\operatorname{E}
\left[
 (z-\mu)(z-\mu)^{*}
\right]

其中复数z的共轭记为z^{*}

如果Z 是一个复列向量,则取其共轭转置,得到一个方阵:


\operatorname{E}
\left[
 (Z-\mu)(Z-\mu)^{*}
\right]

其中Z^{*}为共轭转置, 它对于标量也成立,因为标量的转置还是标量。

估计[编辑]

多元正态分布的共變異數矩阵的估计的推导非常精致. 它需要用到谱定义以及为什么把标量看做1 \times 1矩阵的trace更好的原因。参见共變異數矩阵的估计

外部连接[编辑]