皮尔逊积矩相关系数
在统计学中,皮尔逊积矩相关系数(英语:Pearson product-moment correlation coefficient,又称作 PPMCC或PCCs[1], 文章中常用r或Pearson's r表示)用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。在自然科学领域中,该系数广泛用于度量两个变量之间的相关程度。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来的。[2][3]这个相关系数也称作“皮尔森相关系数r”。
目录 |
定义 [编辑]
两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:
以上方程定义了总体相关系数, 一般表示成希腊字母ρ(rho)。基于样本对协方差和标准差进行估计,可以得到样本相关系数, 一般表示成r:
一种等价表达式的是表示成标准分的均值。基于(Xi, Yi)的样本点,样本皮尔逊系数是
其中
、
及 
数学特性 [编辑]
总体和样本皮尔逊系数的绝对值小于或等于1。如果样本数据点精确的落在直线上(计算样本皮尔逊系数的情况),或者双变量分布完全在直线上(计算总体皮尔逊系数的情况),则相关系数等于1或-1。皮尔逊系数是对称的:corr(X,Y) = corr(Y,X)。
皮尔逊相关系数有一个重要的数学特性是,因两个变量的位置和尺度的变化并不会引起该系数的改变,即它该变化的不变量 (由符号确定)。也就是说,我们如果把X移动到a + bX和把Y移动到c + dY,其中a、b、c和d是常数,并不会改变两个变量的相关系数(该结论在总体和样本皮尔逊相关系数中都成立)。我们发现更一般的线性变换则会改变相关系数:参见之后章节对该特性应用的介绍。
由于μX = E(X), σX2 = E[(X − E(X))2] = E(X2) − E2(X),Y也类似, 并且
故相关系数也可以表示成
对于样本皮尔逊相关系数:
以上方程给出了计算样本皮尔逊相关系数简单的单流程算法,但是其依赖于涉及到的数据,有时它可能是数值不稳定的。
解释 [编辑]
皮尔逊相关系数的变化范围为-1到1。 系数的值为1意味着X 和 Y可以很好的由直线方程来描述,所有的数据点都很好的落在一条 直线上,且 Y 随着 X 的增加而增加。系数的值为−1意味着所有的数据点都落在直线上,且 Y 随着 X 的增加而减少。系数的值为0意味着两个变量之间没有线性关系。
更一般的, 我们发现,当且仅当 Xi and Yi 均落在他们各自的均值的同一侧, 则(Xi − X)(Yi − Y) 的值为正。 也就是说,如果Xi 和 Yi 同时趋向于大于, 或同时趋向于小于他们各自的均值,则相关系数为正。 如果 Xi 和 Yi 趋向于落在他们均值的相反一侧,则相关系数为负。
几何学的解释 [编辑]
对于没有中心化的数据, 相关系数与两条可能的回归线y=gx(x) 和 x=gy(y) 夹角的余弦值一致。
对于中心化过的数据 (也就是说, 数据移动一个样本平均值以使其均值为0), 相关系数也可以被视作由两个随机变量 向量 夹角
的 余弦值(见下方)。
一些人[谁?] 倾向于是用非中心化的相关系数 (non-Pearson-compliant) 。 比较如下。
例如,有5个国家的国民生产总值分别为 10, 20, 30, 50 和 80 亿美元。 假设这5个国家 (顺序相同) 的贫困百分比分别为 11%, 12%, 13%, 15%, and 18% 。 令 x 和 y 分别为包含上述5个数据的向量: x = (1, 2, 3, 5, 8) 和 y = (0.11, 0.12, 0.13, 0.15, 0.18)。
利用通常的方法计算两个向量之间的夹角
(参见 数量积), 未中心化 的相关系数是:
我们发现以上的数据特意选定为完全相关: y = 0.10 + 0.01 x。 于是,皮尔逊相关系数应该等于1。将数据中心化 (通过E(x) = 3.8移动 x 和通过 E(y) = 0.138 移动 y ) 得到 x = (−2.8, −1.8, −0.8, 1.2, 4.2) 和 y = (−0.028, −0.018, −0.008, 0.012, 0.042), 从中,
相关系数大小的解释 [编辑]
| 相关性 | 负 | 正 |
|---|---|---|
| 无 | −0.09 to 0.0 | 0.0 to 0.09 |
| 弱 | −0.3 to −0.1 | 0.1 to 0.3 |
| 中 | −0.5 to −0.3 | 0.3 to 0.5 |
| 强 | −1.0 to −0.5 | 0.5 to 1.0 |
一些作者[4][5] 已经给出了解释相关系数的指南。 然而, 所有这些标准从某种意义上说是武断的和不严格的。[5] 对相关系数的解释依赖于具体的应用背景和目的。 如果是应用在使用高性能的仪器来验证一个物理定律,0.9的相关系数可能是很低的。但如果是应用在社会科学中,由于社会科学受到各种复杂多变因素影响,0.9的相关系数是相当高的。
皮尔逊距离 [编辑]
皮尔逊距离度量的是两个变量X和Y,它可以根据皮尔逊系数定义成[6]
我们可以发现,皮尔逊系数落在 [-1, 1], 而皮尔逊距离落在 [0, 2]。
推断 [编辑]
基于皮尔逊相关系数的统计推断通常关注以下两个目标。 一个目标是验证 零假设 是否为真, 即相关系数 ρ 是否等于 0, 该相关系数使用的是样本相关系数 r。 另一个目标是对给定包含ρ的概率构建一个 围绕r的置信区间 。
随机采样方法 [编辑]
显著性检验 提供了一种假设检验和构造置信区间的直接方法。 对皮尔逊相关系数的显著性检验包括以下两个步骤: (i) 随机地将原始的数据对 (xi, yi)重新定义成数据集 (xi, yi′), 其中 i′ 表示数列 {1,...,n}。 数列 i′ 的选取是随机的, 以相同的概率落在 n! 种可能的数列中。 这等价于随机地"不可重复地"从数列{1,..., n}中选取 i′ 。 一种相近的且合乎情理的方法 (自助抽样法)是“可重复地”从数列{1,..., n}中选取 i 和 i′ (ii) 由随机数据构造相关系数 r 。 为了完成显著性检验, 需要多次重复步骤 (i) 和 (ii) 。 显著性检验的 p值 是由测试数据除以步骤(ii)得到的 r,其中r大于由原始数据计算出的皮尔逊相关系数。 在这里“大”可能是绝对值比较大或者是数值比较大,这取决于测试使用的是 双边检验 或者是 单边检验 。
自助抽样法 可以被用来构造皮尔逊系数的置信区间。 在 "非参数"的自助抽样法中, “可重复”地从观测数据集n中重新采样n 对的 (xi, yi) 数据, 用来计算相关系数 r 。 这个过程重复了大量次数,。重新采样后数据的 r值的分布被用来估计统计学上的样本分布 。 ρ'的95%的 置信区间 可以被定义成重新采样样本 r值的%2.5到%97.5之间。
基于数学近似的方法 [编辑]
对于近似 高斯分布的数据, 皮尔逊相关系数的 样本分布 近似地服从自由度为N − 2的 t分布 。 特别地,如果两个变量服从双变量正态分布,变量
服从不相关的t分布。[7] 如果样本容量不是特别小,这个结论也大致成立,即便观测数据不是正态分布的。[8] 如果需要构建置信区间和进行有力的分析,还需要采用如下的可逆变换
或者, 也可以采用大量采样数据的方法。
早期对样本相关系数的研究得益于 R. A. Fisher[9][10] 和 A. K. Gayen.[11]的工作。 另一篇早期的论文[12] 给出了在小样本的情况下总体相关系数 ρ的图表, 并讨论了相关的计算方法。
准确服从高斯分布的数据 [编辑]
注意到
, 因此 r 是
的一个有偏估计。 一种获得无偏估计的方法是解
的方程
。 然而,解
是次优的。 一种无偏估计, 可以从 n较大情况下的最小方差和有偏序列
, 通过最大化
, 也就是
获得。
特殊情况下,当
时, 分布可以被写成
其中
是 贝塔方程.
费舍尔变换 [编辑]
实际应用中, 与ρ相关的置信区间 和 假设检验 通常是通过 fisher变换获得
如果 F(r) 是 r的fisher变换, n 是样本容量, 那么 F(r) 近似服从 正态分布
and standard error 
也就是 标准分 是
对
进行零假设 ,可以设想样本数据对是 独立同分布 并且服从 双变量正态分布. 因此 p值估计可以从正态分布概率表中获得。 比如, 如果观测数据 z = 2.2 并且要用双边p值对
进行零假设检验, p值是 2·Φ(−2.2) = 0.028, 其中 Φ 是正态分布 累积分布函数。
置信区间 [编辑]
为了获得 ρ的置信区间, 首先,我们应该计算 F(
)的置信区间:
通过可逆 Fisher 变换可以获得相关尺度上的区间。
举例来说, 假设我们观测到 r = 0.3 ,样本容量 n=50, 并且我们期望获得ρ的 95% 的置信区间。 变换后的值是 artanh(r) = 0.30952, 所以在变换尺度上的置信区间是 0.30952 ± 1.96/√47, 或者 (0.023624, 0.595415)。 变换回相关尺度上是 (0.024, 0.534)。
皮尔逊相关系数和最小方差回归分析 [编辑]
样本相关系数的平方, 亦称作 coefficient of determination, 利用简单线性回归估计由X引起的 Y的变化。 一开始, Yi 围绕它们平均值上的变化可以分解成
其中
是作回归分析时的适应值。 整理后得
两个被加数是由X (右边)引起的Y的变化和不是由X (左边) 引起的变化。
接下来, 我们利用最小方差回归模型, 使
和
的样本协方差为0。 于是, 观测数据和适应值的样本相关系数可以被写成
![\begin{align}
r(Y,\hat{Y}) &= \frac{\sum_i(Y_i-\bar{Y})(\hat{Y}_i-\bar{Y})}{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\
&= \frac{\sum_i(Y_i-\hat{Y}_i+\hat{Y}_i-\bar{Y})(\hat{Y}_i-\bar{Y})}{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\
&= \frac{ \sum_i [(Y_i-\hat{Y}_i)(\hat{Y}_i-\bar{Y}) +(\hat{Y}_i-\bar{Y})^2 ]}{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\
&= \frac{ \sum_i (\hat{Y}_i-\bar{Y})^2 }{\sqrt{\sum_i(Y_i-\bar{Y})^2\cdot \sum_i(\hat{Y}_i-\bar{Y})^2}}\\
&= \sqrt{\frac{\sum_i(\hat{Y}_i-\bar{Y})^2}{\sum_i(Y_i-\bar{Y})^2}}.
\end{align}](http://upload.wikimedia.org/math/1/e/4/1e4caa31bf0f23d8efec4fb9cafbf980.png)
于是
是由X的线性方程引起的 Y 的平均变化。
数据分布的敏感度 [编辑]
存在性 [编辑]
总体皮尔逊相关系数被定义成 矩, 因此任意的双变量概率分布是非零的, 也就是说 总体 协方差 和 边缘 总体方差 是由定义的。 一些概率分布, 诸如 柯西分布 有未定义的方差,因此X or Y 如果服从这种分布,ρ便是未定义的。 在实际应用中, 如果有数据被怀疑服从重尾分布, 这个条件就需要引起重视。 然而, 相关系数的存在性通常并需要太介意; 例如, 如果分布是有界的, ρ 便总是有意义的。
大样本的特性 [编辑]
在双变量 正态分布的案例中, 只要边缘均值和方差是已知的,总体相关系数描述的是便是联合分布。 在其他的双变量分布中,这个结论并不正确。 总之, 不论两个随机变量的联合分布是不是正态的,相关系数在研究的它们之间的线性依赖性都是有帮助的。[2] 样本相关系数是对两个正态分布变量总体相关系数的最大似然估计 并且是 渐进 无偏的 和 有效的, 这也就是说如果数据时正态的并且样本容量是中等的或大量的,就不可能构造出一个比样本相关系数更准确的估计。对于非正态的数据, 样本相关系数大致上是无偏的,但有可能是无效的。 只要样本均值、方差和协方差是一致的(当大数定理可以应用的情况下),样本相关系数是总体相关系数的 一致估计 。
鲁棒性 [编辑]
与其他常用的统计指标相似的, 样本指标r 不是 鲁棒的[15] 。因此如果由 异常值,这个指标是有误导性的。[16][17] 特别的, PMCC 既不是分布鲁棒的,[來源請求] 也不是异常值鲁棒的[15] (see Robust statistics#Definition)。 对X 和 Y的散点图的观察可以很明显的揭示出缺乏鲁棒性的情况,在这种情况下,采用的联合的方法是比较明智的。 注意到,虽然大多数鲁棒的估计器从某种程度上说都是有统计依赖的, 它们总的来说,在总体相关系数的尺度上都是可辨的。
基于皮尔逊相关系数的统计推断对数据分布式敏感的。 如果数据大致是正态分布的,可以使用精确检验和基于Fisher变换的渐进检验,但是它们可能由误导性。 在一些情况下, 自助采样 可以用来构造置信区间。 同时, 重复抽样 可以应用在假设检验中。 这些非参数化 的方法在某些情况下,如双变量正态分布不能保证时,可能得出更有意义的结论。 然而,这些方法的标准形式依赖于数据的 可交换性。这也就意味着被分析的数据时没有顺序的和组别的。因为这有可能会影响估计相关系数的特性。
分层分析是一种容许缺少双变量正态性的方法,或者说是用来隔离相互关联因素的关联结果。 如果 W 代表聚类成员或者其它需要被控制的因素,我们可以分离基于W的数据, 然后我们可以再每个层里计算相关系数。 当我们控制变量W,我们便能在层的等级上估计与所有相关系数相关的各自的相关系数。[18]
计算加权相关系数 [编辑]
假设我们要计算关联性的观测数据有着不同的重要程度,表示成权值向量 w。 利用权值向量w (总长度 n)计算向量 x 和 y 的相关系数,[19]
- 加权均值:
- 加权协方差
- 加权相关系数
去除相关性 [编辑]
我们总是可以通过一定的线性变换去除随机变量之间的相关性, 即便变量间的关系是非线性的。 Cox & Hinkley[20]给出了在总体相关系数中的表达形式。
与此相应的,样本相关系数也存在这样的结论,使得样本相关系数变为0。假设长度为 n 的随机变量被随机采样 m 次。 令 X 是一个矩阵,其中
是第i次采样的第 j个变量。 令
是一个所有元素都为1的 m * m 的方阵。 那么 D 是变换后的数据,使得随机变量的均值为0, 并且 T 是变换后的数据,使得所有的变量均值为0和与除自身外的其他变量的相关系数为0 - T的矩作为身份矩阵。 为了得到单位方差,还需要除以标准差。 虽然变换后的数据有可能不是独立的,但他们一定是不相关的。
其中,指数-1/2表示矩阵置换后的 矩阵方根。T的协方差被当做身份矩阵。如果新的样本数据x是n个元素的向量, 那么相同的变换可以应用到x中以获得变换向量d和t:
这个去相关性的方法被应用到多变量的主成分分析中。
反射相关性 [编辑]
反射相关系数是皮尔逊相关系数的变体,数据并不是以他们的均值为中心。[來源請求]总体反射相关系数是
反射相关系数是对称的, 但在如下的变换中并不是不变的
样本反射相关系数是
样本加权相关系数是
参见 [编辑]
外部链接 [编辑]
- ^ "The human disease network", Albert Barabasi et al., Plos.org
- ^ 2.0 2.1 J. L. Rodgers and W. A. Nicewander. Thirteen ways to look at the correlation coefficient. The American Statistician, 42(1):59–66, February 1988.
- ^ Stigler, Stephen M. Francis Galton's Account of the Invention of Correlation. Statistical Science. 1989, 4 (2): 73–79. doi:10.1214/ss/1177012580. JSTOR 2245329.
- ^ A. Buda and A.Jarynowski (2010) Life-time of correlations and its applications vol.1, Wydawnictwo Niezalezne: 5–21, December 2010, ISBN 978-83-915272-9-0
- ^ 5.0 5.1 Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.)
- ^ Fulekar (Ed.), M.H. (2009) Bioinformatics: Applications in Life and Environmental Sciences, Springer (pp. 110) ISBN 1402088795
- ^ N.A Rahman, A Course in Theoretical Statistics; Charles Griffin and Company, 1968
- ^ Kendall, M.G., Stuart, A. (1973)The Advanced Theory of Statistics, Volume 2: Inference and Relationship, Griffin. ISBN 0852642156 (Section 31.19)
- ^ Fisher, R.A.. Frequency distribution of the values of the correlation coefficient in samples from an indefinitely large population. Biometrika. 1915, 10 (4): 507–521. doi:10.1093/biomet/10.4.507.
- ^ Fisher, R.A.. On the probable error of a coefficient of correlation deduced from a small sample (PDF). Metron. 1921, 1 (4): 3–32 [2009-03-25].
- ^ Gayen, A.K. The frequency distribution of the product moment correlation coefficient in random samples of any size draw from non-normal universes. Biometrika. 1951, 38: 219–247. doi:10.1093/biomet/38.1-2.219.
- ^ Soper, H.E., Young, A.W., Cave, B.M., Lee, A., Pearson, K. (1917). "On the distribution of the correlation coefficient in small samples. Appendix II to the papers of "Student" and R. A. Fisher. A co-operative study", Biometrika, 11, 328-413. doi:10.1093/biomet/11.4.328
- ^ Kenney, J. F. and Keeping, E. S., Mathematics of Statistics, Pt. 2, 2nd ed. Princeton, NJ: Van Nostrand, 1951.
- ^ Correlation Coefficient - Bivariate Normal Distribution
- ^ 15.0 15.1 Wilcox, Rand R. Introduction to robust estimation and hypothesis testing. Academic Press. 2005.
- ^ Devlin, Susan J; Gnanadesikan, R; Kettenring J.R. Robust Estimation and Outlier Detection with Correlation Coefficients. Biometrika. 1975, 62 (3): 531–545. doi:10.1093/biomet/62.3.531. JSTOR 2335508.
- ^ Huber, Peter. J. Robust Statistics. Wiley. 2004.[页码请求]
- ^ Katz., Mitchell H. (2006) Multivariable Analysis - A Practical Guide for Clinicians. 2nd Edition. Cambridge University Press. ISBN 9780521549851. ISBN 052154985X doi:10.2277/052154985X
- ^ http://sci.tech-archive.net/Archive/sci.stat.math/2006-02/msg00171.html</ref><ref>A MATLAB Toolbox for computing Weighted Correlation Coefficients
- ^ Cox, D.R., Hinkley, D.V. (1974) Theoretical Statistics, Chapman & Hall (Appendix 3) ISBN 0412124203
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||
![\rho_{X,Y}={\mathrm{cov}(X,Y) \over \sigma_X \sigma_Y} ={E[(X-\mu_X)(Y-\mu_Y)] \over \sigma_X\sigma_Y},](http://upload.wikimedia.org/math/1/7/7/17709e96782a6a8bcd39904c5f2383e6.png)


、
及 
![E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y),\,](http://upload.wikimedia.org/math/d/6/8/d68b84931c79ab42b6a9374ffd5a4179.png)








是
是 

and standard error 
![z = \frac{x - \text{mean}}{\text{SE}} = [F(r) - F(\rho_0)]\sqrt{n - 3}](http://upload.wikimedia.org/math/5/0/8/5086b102091b9494a26d81abd990f935.png)
![100(1 - \alpha)%\text{CI}: \operatorname{artanh}(\rho) \in [\operatorname{artanh}(r) \pm z_{\alpha/2}SE]](http://upload.wikimedia.org/math/2/2/7/2272ea5f52e8b714da90af58eb39d82f.png)
![100(1 - \alpha)%\text{CI}: \rho \in [\operatorname{tanh}(\operatorname{artanh}(r) - z_{\alpha/2}SE), \operatorname{tanh}(\operatorname{artanh}(r) + z_{\alpha/2}SE)]](http://upload.wikimedia.org/math/b/2/8/b2819c2acc14c4b10865746a9781f25e.png)










![\text{Corr}_r(X,Y) = \frac{E[XY]}{\sqrt{EX^2\cdot EY^2}}.](http://upload.wikimedia.org/math/2/5/b/25bb0f867f31f5bfb809beed4a01484a.png)


