本頁使用了標題或全文手工轉換

共變異數

維基百科,自由的百科全書
前往: 導覽搜尋

共變異數(Covariance)在機率論統計學中用於衡量兩個變量的總體誤差。而變異數是共變異數的一種特殊情況,即當兩個變量是相同的情況。

期望值分別為E(X)=\muE(Y)=\nu的兩個實數隨機變數XY 之間的共變異數定義為:

\operatorname{cov}(X, Y) = \operatorname{E}((X - \mu) (Y - \nu))

其中E是期望值。它也可以表示為:

\operatorname{cov}(X, Y) = \operatorname{E}(X \cdot Y) - \mu \nu

直觀上來看,共變異數表示的是兩個變數的總體的誤差,這與只表示一個變數誤差的變異數不同。 如果兩個變數的變化趨勢一致,也就是說如果其中一個大於自身的期望值,另外一個也大於自身的期望值,那麼兩個變數之間的共變異數就是正值。 如果兩個變數的變化趨勢相反,即其中一個大於自身的期望值,另外一個卻小於自身的期望值,那麼兩個變數之間的共變異數就是負值。

如果XY統計獨立的,那麼二者之間的共變異數就是0,這是因為

E(X \cdot Y)=E(X) \cdot E(Y)=\mu\nu,

但是反過來並不成立,即如果XY 的共變異數為0,二者並不一定是統計獨立的。

取決於共變異數的相關性η

 \eta = \left| \dfrac{\operatorname{cov}(X, Y)}{\sqrt{\operatorname{var}(X) \cdot \operatorname{var}(Y)}} \right| ,

更準確地說是線性相關性,是一個衡量線性獨立的無量綱數,其取值在[0,+1]之間。相關性η = 1時稱為「完全線性相關」,此時將Yi對Xi作Y-X 散點圖,將得到一組精確排列在直線上的點;相關性數值介於0到1之間時,其越接近1表明線性相關性越好,作散點圖得到的點的排布越接近一條直線。

相關性為0(因而共變異數也為0)的兩個隨機變數又被稱為是不相關的,或者更準確地說叫作「線性無關」、「線性不相關」,這僅僅表明XY 兩隨機變數之間沒有線性相關性,並非表示它們之間一定沒有任何內在的(非線性)函數關係,和前面所說的「X、Y二者並不一定是統計獨立的」說法一致。

屬性[編輯]

如果XY 是實數隨機變數,ab 不是隨機變數,那麼根據共變異數的定義可以得到:

\operatorname{cov}(X, X) = \operatorname{var}(X)
\operatorname{cov}(X, Y) = \operatorname{cov}(Y, X)
\operatorname{cov}(aX, bY) = ab\, \operatorname{cov}(X, Y)

對於隨機變數序列X1, ..., XnY1, ..., Ym,有

\operatorname{cov}\left(\sum_{i=1}^n {X_i}, \sum_{j=1}^m{Y_j}\right) =  \sum_{i=1}^n{\sum_{j=1}^m{\operatorname{cov}\left(X_i, Y_j\right)}}

對於隨機變數序列X1, ..., Xn,有

\operatorname{var}\left(\sum_{i=1}^n X_i \right) = \sum_{i=1}^n \operatorname{var}(X_i) + 2\sum_{i,j\,:\,i<j} \operatorname{cov}(X_i,X_j)

共變異數矩陣[編輯]

分別為mn純量元素的列向量隨機變數XY,二者對應的期望值分別為μ與ν,這兩個變數之間的共變異數定義為m×n 矩陣

\operatorname{cov}(X, Y) = \operatorname{E}((X-\mu)(Y-\nu)^\top).

兩個向量變數的共變異數cov(X, Y)與cov(Y, X)互為轉置矩陣

共變異數有時也稱為是兩個隨機變數之間「線性獨立性」的度量,但是這個含義與線性代數中嚴格的線性獨立性線性獨立不同。

參見[編輯]