本頁使用了標題或全文手工轉換

皮爾遜積差相關係數

維基百科,自由的百科全書
跳至導覽 跳至搜尋

統計學中,皮爾遜積矩相關係數(英語:Pearson product-moment correlation coefficient,又稱作 PPMCCPCCs[1], 文章中常用r或Pearson's r表示)用於度量兩個變數X和Y之間的相關程度(線性相依),其值介於-1與1之間。在自然科學領域中,該係數廣泛用於度量兩個變數之間的線性相依程度。它是由卡爾·皮爾遜弗朗西斯·高爾頓在19世紀80年代提出的一個相似卻又稍有不同的想法演變而來。[2][3]這個相關係數也稱作「皮爾森相關係數r」。

幾組(x, y)的點集,以及各個點集中x和y之間的相關係數。我們可以發現相關係數反映的是變數之間的線性關係和相關性的方向(第一排),而不是相關性的斜率(中間),也不是各種非線性關係(第三排)。請注意:中間的圖中斜率為0,但相關係數是沒有意義的,因為此時變數Y是0

定義[編輯]

兩個變數之間的皮爾遜相關係數定義為兩個變數之間的共變異數標準差的商:

上式定義了母體相關係數,常用希臘小寫字母 ρ (rho) 作為代表符號。估算樣本的共變異數和標準差,可得到樣本相關係數(樣本皮爾遜係數),常用英文小寫字母 r 代表:

r 亦可由樣本點的標準分數均值估算,得到與上式等價的表達式:

其中 分別是 樣本的標準分數、樣本平均值和樣本標準差。

數學特性[編輯]

母體和樣本皮爾遜係數的絕對值小於或等於1。如果樣本數據點精確的落在直線上(計算樣本皮爾遜係數的情況),或者雙變數分布完全在直線上(計算母體皮爾遜係數的情況),則相關係數等於1或-1。皮爾遜係數是對稱的:corr(X,Y) = corr(Y,X)。

皮爾遜相關係數有一個重要的數學特性是,因兩個變數的位置和尺度的變化並不會引起該係數的改變,即它該變化的不變數 (由符號確定)。也就是說,我們如果把X移動到a + bX和把Y移動到c + dY,其中a、b、c和d是常數,並不會改變兩個變數的相關係數(該結論在母體和樣本皮爾遜相關係數中都成立)。我們發現更一般的線性變換則會改變相關係數:參見之後章節對該特性應用的介紹。

由於μX = E(X), σX2 = E[(X − E(X))2] = E(X2) − E2(X),Y也類似, 並且

故相關係數也可以表示成

對於樣本皮爾遜相關係數:

以上方程式給出了計算樣本皮爾遜相關係數簡單的單流程算法,但是其依賴於涉及到的數據,有時它可能是數值不穩定的。

解釋[編輯]

皮爾遜相關係數的變化範圍為-1到1。 係數的值為1意味著XY可以很好的由直線方程式來描述,所有的數據點都很好的落在一條 直線上,且 Y 隨著 X 的增加而增加。係數的值為−1意味著所有的數據點都落在直線上,且 Y 隨著 X 的增加而減少。係數的值為0意味著兩個變數之間沒有線性關係。

更一般的, 我們發現,若且唯若 Xi and Yi 均落在他們各自的均值的同一側, 則(Xi − X)(Yi − Y) 的值為正。 也就是說,如果XiYi 同時趨向於大於, 或同時趨向於小於他們各自的均值,則相關係數為正。 如果 XiYi 趨向於落在他們均值的相反一側,則相關係數為負。

幾何學角度的解釋[編輯]

回歸直線: y=gx(x) [紅色] 和 x=gy(y) [藍色]

對於沒有進行中心化的數據, 相關係數與兩條可能的回歸線y=gx(x) 和 x=gy(y) 夾角的餘弦值一致。

對於中心化過的數據 (也就是說, 數據移動一個樣本平均值以使其均值為0), 相關係數也可以被視作由兩個隨機變數向量夾角餘弦值(見下方)。

一些人[誰?] 傾向於使用非中心化的相關係數 (non-Pearson-compliant) 。 比較如下。

例如,有5個國家的國民生產總值分別為 10, 20, 30, 50 和 80 億美元。 假設這5個國家 (順序相同) 的貧困百分比分別為 11%, 12%, 13%, 15%, 和 18% 。 令 xy 分別等於包含上述5個數據的向量: x = (1, 2, 3, 5, 8) 和 y = (0.11, 0.12, 0.13, 0.15, 0.18)。

利用通常的方法計算兩個向量之間的夾角 (參見 數量積), 未中心化 的相關係數是:

我們發現以上的數據特意選定為完全相關: y = 0.10 + 0.01 x。 於是,皮爾遜相關係數應該等於1。將數據中心化 (通過E(x) = 3.8移動 x 和通過 E(y) = 0.138 移動 y ) 得到 x = (−2.8, −1.8, −0.8, 1.2, 4.2) 和 y = (−0.028, −0.018, −0.008, 0.012, 0.042), 從中,

對相關係數大小的解釋[編輯]

相關性
−0.09 to 0.0 0.0 to 0.09
−0.3 to −0.1 0.1 to 0.3
−0.5 to −0.3 0.3 to 0.5
−1.0 to −0.5 0.5 to 1.0

一些著作的作者[4][5] 給出了某些解釋相關係數的指南。 然而, 所有這些標準從某種意義上說是武斷的和不嚴格的。[5] 對相關係數的解釋是依賴於具體的應用背景和目的的。 例如,若是在運用高性能的儀器來驗證一個物理定律實驗這樣的應用背景下,0.9的相關係數可能是很低的。但如果是應用在社會科學中,由於社會科學受到各種複雜多變因素影響,0.9的相關係數是相當高的。

皮爾遜距離[編輯]

皮爾遜距離度量的是兩個變數X和Y,它可以根據皮爾遜係數定義成[6]

我們可以發現,皮爾遜係數落在,而皮爾遜距離落在

統計推斷:顯著性檢驗與信賴區間[編輯]

圖表顯示對於給定的樣本大小,在0.05的置信度上,皮爾遜相關係數顯著不為零。

基於皮爾遜相關係數的統計推斷通常關注以下兩個目標。

  1. 驗證零假設是否為真,即相關係數 ρ 是否等於 0, 該相關係數使用的是樣本相關係數 r
  2. 在給定的信心水準α之下,構建一個圍繞r信賴區間

隨機採樣方法[編輯]

顯著性檢驗提供了一種假設檢驗和構造信賴區間的直接方法。

對皮爾遜相關係數的顯著性檢驗包括以下兩個步驟:

  1. 隨機地將原始的數據對 (xiyi)重新定義成數據集 (xiyi′), 其中 i′ 表示數列 {1,...,n}。 數列 i′ 的選取是隨機的, 以相同的機率落在 n! 種可能的數列中。這等價於隨機地"不可重複地"從數列{1,..., n}中選取 i′。一種相近的且合乎情理的方法(自助抽樣法)是「可重複地」從數列{1,..., n}中選取 ii′
  2. 由隨機數據構造相關係數r

為了完成顯著性檢驗,需要多次重複步驟(i)和(ii) 。顯著性檢驗的P值是由測試數據除以步驟(ii)得到的r,其中r大於由原始數據計算出的皮爾遜相關係數。在這裡「大」可能是絕對值比較大或者是數值比較大,這取決於測試使用的是雙邊檢驗英語two-tailed test或者是單邊檢驗英語two-tailed test

自助抽樣法[編輯]

自助抽樣法可以被用來構造皮爾遜係數的信賴區間。在"非參數"的自助抽樣法中,「可重複」地從觀測數據集n中重新採樣n 對的 (xiyi) 數據,用來計算相關係數r。這個過程重複了大量次數,。重新採樣後數據的 r值的分布被用來估計統計學上的樣本分布英語sampling distributionρ的95%的信賴區間可以被定義成重新採樣樣本 r值的%2.5到%97.5之間。

基於數學近似的方法[編輯]

對於近似高斯分布的數據,皮爾遜相關係數的樣本分布英語sampling distribution近似於自由度為N − 2的t分布。特別地,如果兩個變數服從雙變數常態分布,變數

也會服從不相關的t分布。[7] 如果樣本容量不是特別小,這個結論也大致成立,即便觀測數據不是常態分布的。[8]如果需要構建信賴區間和進行有力的分析,還需要採用如下的可逆變換

或者,也可以採用大量採樣數據的方法。

早期對樣本相關係數的研究得益於R. A. Fisher[9][10]和A. K. Gayen.[11]的工作。 另一篇早期的論文[12] 給出了在小樣本的情況下母體相關係數 ρ的圖表, 並討論了相關的計算方法。

準確服從高斯分布的數據[編輯]

準確的雙變數樣本相關係數的分布是[13][14]

其中 伽瑪函數高斯超幾何函數

注意到 , 因此 r的一個有偏估計。一種獲得無偏估計的方法是解的方程式 。 然而,解 是次優的。 一種無偏估計, 可以從 n較大情況下的最小變異數和有偏序列 , 通過最大化 , 也就是獲得。

特殊情況下,當 時,分布可以被寫成

其中 貝塔函數

費舍爾變換[編輯]

實際應用中, 與ρ相關的信賴區間假設檢驗通常是通過費舍爾變換獲得

如果F(r)是r的費舍爾變換,n 是樣本容量,那麼F(r)近似服從常態分布

    and standard error    

也就是標準分

進行零假設,可以設想樣本數據對是獨立同分布並且服從雙變數常態分布。因此P值估計可以從常態分布機率表中獲得。比如,如果觀測數據 z = 2.2,並且要用雙邊p值對 進行零假設檢驗,p值是 2·Φ(−2.2) = 0.028, 其中Φ是常態分布的累積分布函數

信賴區間[編輯]

為了獲得ρ的信賴區間,首先,我們應該計算 F()的信賴區間:

通過可逆Fisher變換可以獲得相關尺度上的區間。

舉例來說,假設我們觀測到 r = 0.3,樣本容量 n=50,並且我們期望獲得ρ的95%的信賴區間。變換後的值是artanh(r) = 0.30952,所以在變換尺度上的信賴區間是 0.30952 ± 1.96/√47,或者 (0.023624, 0.595415)。變換回相關尺度上是 (0.024, 0.534)。

皮爾遜相關係數和最小變異數回歸分析[編輯]

樣本相關係數的平方, 亦稱作 coefficient of determination, 利用簡單線性回歸估計由X引起的 Y的變化。 一開始, Yi 圍繞它們平均值上的變化可以分解成

其中 是作回歸分析時的適應值。 整理後得

兩個被加數是由X (右邊)引起的Y的變化和不是由X (左邊) 引起的變化。

接下來, 我們利用最小變異數回歸模型, 使 的樣本共變異數為0。 於是, 觀測數據和適應值的樣本相關係數可以被寫成

於是

是由X的線性方程式引起的 Y 的平均變化。

數據分布的敏感度[編輯]

存在性[編輯]

母體皮爾遜相關係數被定義成 , 因此任意的雙變數機率分布是非零的, 也就是說 母體 共變異數邊緣 母體變異數 是由定義的。 一些機率分布, 諸如 柯西分布 有未定義的變異數,因此X or Y 如果服從這種分布,ρ便是未定義的。 在實際應用中, 如果有數據被懷疑服從重尾分布, 這個條件就需要引起重視。 然而, 相關係數的存在性通常並需要太介意; 例如, 如果分布是有界的, ρ 便總是有意義的。

大樣本的特性[編輯]

在雙變數 常態分布的案例中, 只要邊緣均值和變異數是已知的,母體相關係數描述的是便是聯合分布。 在其他的雙變數分布中,這個結論並不正確。 總之, 不論兩個隨機變數的聯合分布是不是常態的,相關係數在研究的它們之間的線性依賴性都是有幫助的。[2] 樣本相關係數是對兩個常態分布變數母體相關係數的最大似然估計 並且是 漸進 無偏的 和 有效的, 這也就是說如果數據是常態的並且樣本容量是中等的或大量的,就不可能構造出一個比樣本相關係數更準確的估計。對於非常態的數據, 樣本相關係數大致上是無偏的,但有可能是無效的。 只要樣本均值、變異數和共變異數是一致的(當大數定理可以應用的情況下),樣本相關係數是母體相關係數的 一致估計

穩健性[編輯]

與其他常用的統計指標相似的, 樣本指標r 不是 穩健[15] 。因此如果由 異常值,這個指標是有誤導性的。[16][17] 特別的, PMCC 既不是穩健分布的,[來源請求] 也不是異常值穩健的[15] (see Robust statistics#Definition)。 對XY散點圖的觀察可以很明顯的揭示出缺乏穩健性的情況,在這種情況下,採用的聯合的方法是比較明智的。 注意到,雖然大多數穩健的估計器從某種程度上說都是有統計依賴的, 它們總的來說,在母體相關係數的尺度上都是可辨的。

基於皮爾遜相關係數的統計推斷對數據分布式敏感的。 如果數據大致是常態分布的,可以使用精確檢驗和基於Fisher變換的漸進檢驗,但是它們可能由誤導性。 在一些情況下, 自助採樣 可以用來構造信賴區間。 同時, 重複抽樣 可以應用在假設檢驗中。 這些非參數化 的方法在某些情況下,如雙變數常態分布不能保證時,可能得出更有意義的結論。 然而,這些方法的標準形式依賴於數據的 可交換性。這也就意味著被分析的數據時沒有順序的和組別的。因為這有可能會影響估計相關係數的特性。

分層分析是一種容許缺少雙變數常態性的方法,或者說是用來隔離相互關聯因素的關聯結果。 如果 W 代表聚類成員或者其它需要被控制的因素,我們可以分離基於W的數據, 然後我們可以再每個層里計算相關係數。 當我們控制變數W,我們便能在層的等級上估計與所有相關係數相關的各自的相關係數。[18]

計算加權相關係數[編輯]

假設我們要計算關聯性的觀測數據有著不同的重要程度,表示成權值向量 w。 利用權值向量w (總長度 n)計算向量 xy 的相關係數,[19]

  • 加權均值:
  • 加權共變異數
  • 加權相關係數

去除相關性[編輯]

我們總是可以通過一定的線性變換去除隨機變數之間的相關性, 即便變數間的關係是非線性的。 Cox & Hinkley[20]給出了在母體相關係數中的表達形式。

與此相應的,樣本相關係數也存在這樣的結論,使得樣本相關係數變為0。假設長度為 n 的隨機變數被隨機採樣 m 次。 令 X 是一個矩陣,其中 是第i次採樣的第 j個變數。 令 是一個所有元素都為1的 m * m 的方陣。 那麼 D 是變換後的數據,使得隨機變數的均值為0, 並且 T 是變換後的數據,使得所有的變數均值為0和與除自身外的其他變數的相關係數為0 - T的矩作為身份矩陣。 為了得到單位變異數,還需要除以標準差。 雖然變換後的數據有可能不是獨立的,但他們一定是不相關的。


其中,指數-1/2表示矩陣置換後的 矩陣方根。T的共變異數被當做身份矩陣。如果新的樣本數據x是n個元素的向量, 那麼相同的變換可以應用到x中以獲得變換向量d和t:


這個去相關性的方法被應用到多變數的主成分分析中。

反射相關性[編輯]

反射相關係數是皮爾遜相關係數的變體,數據並不是以他們的均值為中心。[來源請求]母體反射相關係數是

反射相關係數是對稱的, 但在如下的變換中並不是不變的

樣本反射相關係數是

樣本加權相關係數是


比例關係[編輯]

規模的相關性是一個變種的皮爾森相關數據的範圍限制故意以受控的方式揭示時間序列之間的快速成分的相關性。比例相關的定義是在短數據段的平均相關性。 對於給定規模S,令K為可以適應信號的總長度的段數:

比例相關的整個信號的rs的計算公式為

rs為k的部分皮爾森相關係數。 通過對參數s的選擇,減少值的範圍和較長的時間尺度上的相關性被過濾掉,只有在很短的時間尺度上的相關性被發現。因此,慢分量的貢獻被刪除,快分量被保留。

強噪聲條件下[編輯]

強噪聲條件下,提取相關係數兩個隨機變數之間的是平凡的,特別是在典型相關分析報告在退化的相關值的情況下,由於存在大量噪聲。一種概括的方法在其他地方給出。

維基相關條目[編輯]

外部連結[編輯]

註腳[編輯]

  1. ^ "The human disease network", Albert Barabasi et al., Plos.org
  2. ^ 2.0 2.1 J. L. Rodgers and W. A. Nicewander. Thirteen ways to look at the correlation coefficient. The American Statistician, 42(1):59–66, February 1988.
  3. ^ Stigler, Stephen M. Francis Galton's Account of the Invention of Correlation. Statistical Science. 1989, 4 (2): 73–79. JSTOR 2245329. doi:10.1214/ss/1177012580. 
  4. ^ A. Buda and A.Jarynowski (2010) Life-time of correlations and its applications vol.1, Wydawnictwo Niezalezne: 5–21, December 2010, ISBN 978-83-915272-9-0
  5. ^ 5.0 5.1 Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.)
  6. ^ Fulekar (Ed.), M.H. (2009) Bioinformatics: Applications in Life and Environmental Sciences, Springer (pp. 110) ISBN 1402088795
  7. ^ N.A Rahman, A Course in Theoretical Statistics; Charles Griffin and Company, 1968
  8. ^ Kendall, M.G., Stuart, A. (1973)The Advanced Theory of Statistics, Volume 2: Inference and Relationship, Griffin. ISBN 0852642156 (Section 31.19)
  9. ^ Fisher, R.A. Frequency distribution of the values of the correlation coefficient in samples from an indefinitely large population. Biometrika. 1915, 10 (4): 507–521. doi:10.1093/biomet/10.4.507. 
  10. ^ Fisher, R.A. On the probable error of a coefficient of correlation deduced from a small sample (PDF). Metron. 1921, 1 (4): 3–32 [2009-03-25]. 
  11. ^ Gayen, A.K. The frequency distribution of the product moment correlation coefficient in random samples of any size draw from non-normal universes. Biometrika. 1951, 38: 219–247. doi:10.1093/biomet/38.1-2.219. 
  12. ^ Soper, H.E., Young, A.W., Cave, B.M., Lee, A., Pearson, K. (1917). "On the distribution of the correlation coefficient in small samples. Appendix II to the papers of "Student" and R. A. Fisher. A co-operative study", Biometrika, 11, 328-413. doi:10.1093/biomet/11.4.328
  13. ^ Kenney, J. F. and Keeping, E. S., Mathematics of Statistics, Pt. 2, 2nd ed. Princeton, NJ: Van Nostrand, 1951.
  14. ^ Correlation Coefficient - Bivariate Normal Distribution
  15. ^ 15.0 15.1 Wilcox, Rand R. Introduction to robust estimation and hypothesis testing. Academic Press. 2005. 
  16. ^ Devlin, Susan J; Gnanadesikan, R; Kettenring J.R. Robust Estimation and Outlier Detection with Correlation Coefficients. Biometrika. 1975, 62 (3): 531–545. JSTOR 2335508. doi:10.1093/biomet/62.3.531. 
  17. ^ Huber, Peter. J. Robust Statistics. Wiley. 2004. [頁碼請求]
  18. ^ Katz., Mitchell H. (2006) Multivariable Analysis - A Practical Guide for Clinicians. 2nd Edition. Cambridge University Press. ISBN 9780521549851. ISBN 052154985X doi:10.2277/052154985X
  19. ^ http://sci.tech-archive.net/Archive/sci.stat.math/2006-02/msg00171.html</ref><ref[永久失效連結]>A MATLAB Toolbox for computing Weighted Correlation Coefficients
  20. ^ Cox, D.R., Hinkley, D.V. (1974) Theoretical Statistics, Chapman & Hall (Appendix 3) ISBN 0412124203