协方差

在機率論與統計學中，共變異數（英語：Covariance）用於衡量随机变量間的相關程度。

定義[编辑]

定義 —
設 $\Omega$ 為样本空间， $P$ 是定義在 $\Omega$ 的事件族 $\Sigma$ 上的機率。（換句話說， $(\Omega ,\,\Sigma ,\,P)$ 是個機率空間）

若 $X$ 与 $Y$ 是定義在 $\Omega$ 上的兩個实数随机变量，期望值分别为：

\operatorname {E} (X)=\int _{\Omega }X\,dP=\mu

\operatorname {E} (Y)=\int _{\Omega }Y\,dP=\nu

則兩者間的协方差定义为：

\operatorname {cov} (X,Y)=\operatorname {E} [(X-\mu )(Y-\nu )]

根據測度積分的線性性質，上面的原始定義可以進一步簡化為：

{\begin{aligned}\operatorname {cov} (X,Y)&=\int _{\Omega }(X-\mu )(Y-\nu )\,dP\\&=\int _{\Omega }X\cdot Y\,dP-\mu \int _{\Omega }Y\,dP-\nu \int _{\Omega }X\,dP+\mu \nu \\&=\operatorname {E} (X\cdot Y)-\mu \nu \end{aligned}}

协方差的定義可以推廣到兩列隨機變數之間

定義 —
設 $(\Omega ,\,\Sigma ,\,P)$ 是機率空間， $X=\{x_{i}\}_{i=1}^{m}$ 与 $Y=\{y_{j}\}_{j=1}^{n}$ 是定義在 $\Omega$ 上的兩列实数随机变量序列（也可視為有序对或行向量）

若二者对应的期望值分别为：

E(x_{i})=\int _{\Omega }x_{i}\,dP=\mu _{i}

E(y_{j})=\int _{\Omega }y_{j}\,dP=\nu _{j}

則这两列隨機变量间的协方差定义成一個 $m\times n$ 矩阵

\operatorname {\mathbf {cov} } (X,Y):={\left[\,\operatorname {cov} (x_{i},y_{j})\,\right]}_{m\times n}

以上的定義，以矩形來表示就是：

\operatorname {\mathbf {cov} } (X,Y):={\begin{bmatrix}\operatorname {cov} (x_{1},y_{1})&\dots &\operatorname {cov} (x_{1},y_{n})\\\vdots &\ddots &\vdots \\\operatorname {cov} (x_{m},y_{1})&\dots &\operatorname {cov} (x_{m},y_{n})\end{bmatrix}}={\begin{bmatrix}\operatorname {E} (x_{1}y_{1})-\mu _{1}\nu _{1}&\dots &\operatorname {E} (x_{1}y_{n})-\mu _{1}\nu _{n}\\\vdots &\ddots &\vdots \\\operatorname {E} (x_{m}y_{1})-\mu _{m}\nu _{1}&\dots &\operatorname {E} (x_{m}y_{n})-\mu _{m}\nu _{n}\end{bmatrix}}

定理 — 若隨機變數 $X$ 和 $Y$ 是相互独立的，則

\operatorname {cov} (X,Y)=0

如果 $X$ 与 $Y$ 是实数随机变量， $a$ 与 $b$ 是常数，那么根据协方差的定义可以得到：

\operatorname {cov} (X,X)=\operatorname {var} (X)

，

\operatorname {cov} (X,Y)=\operatorname {cov} (Y,X)

，

\operatorname {cov} (aX,bY)=ab\,\operatorname {cov} (X,Y)

，

对于随机变量序列 $X_{1},\ldots ,X_{n}$ 与 $Y_{1},\ldots ,Y_{m}$ ，有

\operatorname {cov} \left(\sum _{i=1}^{n}{X_{i}},\sum _{j=1}^{m}{Y_{j}}\right)=\sum _{i=1}^{n}{\sum _{j=1}^{m}{\operatorname {cov} \left(X_{i},Y_{j}\right)}}

，

对于随机变量序列 $X_{1},\ldots ,X_{n}$ ，有

\operatorname {var} \left(\sum _{i=1}^{n}X_{i}\right)=\sum _{i=1}^{n}\operatorname {var} (X_{i})+2\sum _{i,j\,:\,i<j}\operatorname {cov} (X_{i},X_{j})

。