線性回歸

维基百科,自由的百科全书
跳转至: 导航搜索

統計學中,線性回歸是利用稱為線性回歸方程的最小平方函數對一個或多個自變量因變量之間關係進行建模的一種回歸分析。這種函數是一個或多個稱為回歸係數的模型參數的線性組合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。(这反过来又应当由多个相关的因变量预测的多元线性回归区别[來源請求],而不是一个单一的标量变量。)

在线性回归中,数据使用线性预测函数来建模,并且未知的模型参数也是通过数据来估计。这些模型被叫做线性模型。最常用的线性回归建模是给定X值的y的条件均值是X的仿射函数。不太一般的情况,线性回归模型可以是一个中位数或一些其他的给定X的条件下y的条件分布的分位数作为X的线性函数表示。像所有形式的回归分析一样,线性回归也把焦点放在给定X值的y的条件概率分布,而不是X和y的联合概率分布(多元分析领域)。

线性回归是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。这是因为线性依赖于其未知参数的模型比非线性依赖于其位置参数的模型更容易拟合,而且产生的估计的统计特性也更容易确定。

线性回归有很多实际用途。分为以下两大类:

1. 如果目标是预测或者映射,线性回归可以用来对观测数据集的和X的值拟合出一个预测模型。当完成这样一个模型以后,对于一个新增的X值,在没有给定与它相配对的y的情况下,可以用这个拟合过的模型预测出一个y值。

2. 给定一个变量y和一些变量X1,...,Xp,这些变量有可能与y相关,线性回归分析可以用来量化y与Xj之间相关性的强度,评估出与y不相关的Xj,并识别出哪些Xj的子集包含了关于y的冗余信息。

线性回归模型经常用最小二乘逼近来拟合,但他们也可能用别的方法来拟合,比如用最小化“拟合缺陷”在一些其他规范里(比如最小绝对误差回归),或者在桥回归中最小化最小二乘损失函数的惩罚.相反,最小二乘逼近可以用来拟合那些非线性的模型.因此,尽管“最小二乘法”和“线性模型”是紧密相连的,但他们是不能划等号的。

帶有一個自變量的線性回歸

簡介[编辑]

理論模型[编辑]

給一個随機樣本 (Y_i, X_{i1}, \ldots, X_{ip}), \, i = 1, \ldots, n ,一個線性回歸模型假設回歸子 Y_i 和回歸量 X_{i1}, \ldots, X_{ip} 之間的關係是除了X的影響以外,還有其他的變數存在。我們加入一個誤差項 \varepsilon_i (也是一個随機變量)來捕獲除了X_{i1}, \ldots, X_{ip} 之外任何對 Y_i 的影響。所以一個多變量線性回歸模型表示為以下的形式:

 Y_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \ldots + \beta_p X_{ip} + \varepsilon_i, \qquad i = 1, \ldots, n

其他的模型可能被認定成非線性模型。一個線性回歸模型不需要是自變量的線性函數。線性在這裡表示 Y_i 的條件均值在參數\beta裡是線性的。例如:模型 Y_i = \beta_1 X_i + \beta_2 X_i^2 + \varepsilon_i  \beta_1  \beta_2 裡是線性的,但在 X_i^2 裡是非線性的,它是 X_i 的非線性函數。

數據和估計[编辑]

區分随機變量和這些變量的觀測值是很重要的。通常來說,觀測值或數據(以小寫字母表記)包括了n個值  (y_i, x_{i1}, \ldots, x_{ip}), \, i = 1, \ldots, n .

我們有 p + 1 個參數 \beta_0, \ldots, \beta_p 需要決定,為了估計這些參數,使用矩陣表記是很有用的。

 Y = X \beta + \varepsilon \,

其中Y是一個包括了觀測值 Y_1, \ldots, Y_n 的列向量, \varepsilon 包括了未觀測的随機成份 \varepsilon_1, \ldots, \varepsilon_n 以及回歸量的觀測值矩陣 X

 X = \begin{pmatrix} 1 & x_{11} & \cdots & x_{1p} \\ 1 & x_{21} & \cdots & x_{2p}\\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n1} & \cdots & x_{np} \end{pmatrix}

X通常包括一個常數項。

如果X列之間存在線性相關,那麽參數向量\beta就不能以最小二乘法估計除非\beta被限制,比如要求它的一些元素之和為0。

古典假設[编辑]

  • 樣本是在母體之中随機抽取出來的。
  • 因變量Y在實直線上是連續的
  • 殘差項是獨立相同分佈的(iid),也就是說,殘差是独立随机的,且服從高斯分佈

這些假設意味著殘差項不依賴自變量的值,所以 \varepsilon_i 和自變量X(预測變量)之間是相互獨立的。

在這些假設下,建立一個顯示線性回歸作為條件预期模型的簡單線性回歸,可以表示為:

 \mbox{E}(Y_i \mid X_i = x_i) = \alpha + \beta x_i \,

最小二乘法分析[编辑]

最小二乘法估計[编辑]

回歸分析的最初目的是估計模型的參數以便達到對數據的最佳拟合。在決定一個最佳拟合的不同標準之中,最小二乘法是非常優越的。這種估計可以表示為:

 \hat\beta = (X^T X)^{-1}X^T y \,

回歸推論[编辑]

對於每一個 i=1,\ldots,n ,我們用 \sigma^2 代表誤差項 \varepsilon 的方差。一個無偏誤的估計是:

\hat \sigma^2  = \frac {S} {n-p} ,

其中 S := \sum_{i=1}^n \hat{\varepsilon}_i^2 是誤差平方和(殘差平方和)。估計值和實際值之間的關係是:

\hat\sigma^2 \cdot \frac{n-p}{\sigma^2} \sim  \chi_{n-p}^2

其中 \chi_{n-p}^2 服從卡方分佈,自由度是n-p

對普通方程的解可以冩為:

\hat{\boldsymbol\beta}=(\mathbf{X^TX)^{-1}X^Ty}.

這表示估計項是因變量的線性組合。進一步地說,如果所觀察的誤差服從正態分佈。參數的估計值將服從聯合正態分佈。在當前的假設之下,估計的參數向量是精確分佈的。

 \hat\beta \sim N ( \beta, \sigma^2 (X^TX)^{-1} )

其中N(\cdot)表示多變量正態分佈

參數估計值的標準差是:

\hat\sigma_j=\sqrt{ \frac{S}{n-p}\left[\mathbf{(X^TX)}^{-1}\right]_{jj}}.

參數\beta_j 100(1-\alpha)% 置信區間可以用以下式子來計算:

\hat \beta_j  \pm t_{\frac{\alpha }{2},n - p} \hat \sigma_j.

誤差項可以表示為:

\mathbf{\hat r =  y-X \hat{\boldsymbol{\beta}}= y-X(X^TX)^{-1}X^Ty}.\,

單變量線性回歸[编辑]

單變量線性回歸,又稱簡單線性回歸(simple linear regression, SLR),是最簡單但用途很廣的回歸模型。其回歸式為:

 Y = \alpha + \beta X + \varepsilon

為了估計 \alpha  \beta ,我們有一個樣本 (y_i, x_i), \, i = 1, \ldots, n

最小二乘法就是將未知量殘差平方和最小化:

 \sum_{i = 1}^n \varepsilon_i^2 = \sum_{i = 1}^n (y_i - \alpha - \beta x_i)^2

分别對 \alpha  \beta 求導得到正規方程

\begin{array}{lcl}
n\  \alpha + \sum_{i = 1}^n x_i\  \beta = \sum_{i = 1}^n y_i \\
\sum_{i = 1}^n x_i\  \alpha + \sum_{i = 1}^n x_i^2\  \beta = \sum_{i = 1}^n x_i y_i
\end{array}

此線性方程組可以用克萊姆法則來求解:

\hat\beta = \frac {n \sum_{i = 1}^n x_i y_i - \sum_{i = 1}^n x_i \sum_{i = 1}^n y_i} {n \sum_{i = 1}^n x_i^2 - \left(\sum_{i = 1}^n x_i\right)^2}
=\frac{\sum_{i = 1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i = 1}^n(x_i-\bar{x})^2}
\,
\hat\alpha = \frac {\sum_{i = 1}^n x_i^2 \sum_{i = 1}^n y_i - \sum_{i = 1}^n x_i \sum_{i = 1}^n x_iy_i} {n \sum_{i = 1}^n x_i^2 - \left(\sum_{i = 1}^n x_i\right)^2}= \bar y-\bar x \hat\beta
S = \sum_{i = 1}^n (y_i - \hat{y}_i)^2 
= \sum_{i = 1}^n y_i^2 - \frac {n (\sum_{i = 1}^n x_i y_i)^2 + (\sum_{i = 1}^n y_i)^2 \sum_{i = 1}^n x_i^2 - 2 \sum_{i = 1}^n x_i \sum_{i = 1}^n y_i \sum_{i = 1}^n x_i y_i } {n \sum_{i = 1}^n x_i^2 - \left(\sum_{i = 1}^n x_i\right)^2}
\hat \sigma^2  = \frac {S} {n-2}.

協方差矩陣是:

\frac{1}{n \sum_{i = 1}^n x_i^2 - \left(\sum_{i = 1}^n x_i\right)^2}\begin{pmatrix}
  \sum x_i^2 & -\sum x_i \\
  -\sum x_i & n   
\end{pmatrix}

平均響應置信區間為:

y_d = (\alpha+\hat\beta x_d) \pm t_{ \frac{\alpha }{2} ,n-2} \hat \sigma \sqrt {\frac{1}{n} + \frac{(x_d - \bar{x})^2}{\sum (x_i - \bar{x})^2}}

預報響應置信區間為:

y_d = (\alpha+\hat\beta x_d) \pm t_{ \frac{\alpha }{2} ,n-2} \hat \sigma \sqrt {1+\frac{1}{n} + \frac{(x_d - \bar{x})^2}{\sum (x_i - \bar{x})^2}}

方差分析[编辑]

方差分析(ANOVA)中,總平方和分解為兩個或更多部分。

總平方和SST (sum of squares for total) 是:

 \text{SST} = \sum_{i=1}^n (y_i - \bar y)^2 ,其中:  \bar y = \frac{1}{n} \sum_i y_i

同等地:

 \text{SST}  = \sum_{i=1}^n y_i^2 - \frac{1}{n}\left(\sum_i y_i\right)^2

回歸平方和SSReg (sum of squares for regression。也可寫做模型平方和,SSM,sum of squares for model) 是:

\text{SSReg} = \sum \left( \hat y_i  - \bar y  \right)^2
= \hat{\boldsymbol\beta}^T \mathbf{X}^T
\mathbf y - \frac{1}{n}\left( \mathbf {y^T u u^T y} \right),

殘差平方和SSE (sum of squares for error) 是:

\text{SSE} = \sum_i {\left( {y_i  - \hat y_i} \right)^2 }
= \mathbf{ y^T y - \hat{\boldsymbol\beta}^T X^T y}.

總平方和SST又可寫做SSReg和SSE的和:

\text{SST} = \sum_i \left( y_i-\bar y \right)^2 = \mathbf{ y^T y}-\frac{1}{n}\left( \mathbf{y^Tuu^Ty}\right)=\text{SSReg}+ \text{SSE}.

回歸係數R2是:

R^2  = \frac{\text{SSReg}}{{\text{SST}}}
= 1 - \frac{\text{SSE}}{\text{SST}}.

其他方法[编辑]

廣義最小二乘法[编辑]

廣義最小二乘法可以用在當觀測誤差具有異方差或者自相關的情況下。

總體最小二乘法[编辑]

總體最小二乘法用於當自變量有誤時。

廣義線性模式[编辑]

廣義線性模式應用在當誤差分佈函數不是正態分佈時。比如指數分佈伽瑪分佈逆高斯分佈泊松分佈二項式分佈等。

穩健回歸[编辑]

將平均絕對誤差最小化,不同於在線性回歸中是將均方誤差最小化。

線性回歸的應用[编辑]

趨勢線[编辑]

一條趨勢線代表著時間序列數據的長期走勢。它告訴我們一組特定數據(如GDP、石油價格和股票價格)是否在一段時期内增長或下降。雖然我們可以用肉眼觀察數據點在坐標系的位置大體畫出趨勢線,更恰當的方法是利用線性回歸計算出趨勢線的位置和斜率。

流行病学[编辑]

有关吸烟对死亡率和发病率的证据来自观察性研究早期采用回归分析。为了减少杂散的相关性分析观测数据,研究人员通常他们的回归模型里只包括他们感兴趣的几个变量。例如,加入我们有一个回归模型,这个回归模型中抽烟是我们最感兴趣的独立变量,其相关变量是其生活的年数。研究人员可能将包括社会经济地位等其他因素当成一个额外的独立变量,确保任何观察吸烟影响寿命不是由于某种教育或收入效应。然而,它是永远不可能包括所有可能的混杂变量的实证分析。例如,一个假设的基因可能会增加死亡率,也引起人们吸更多的烟。为此,随机对照试验,常能产生更多的令人信服的证据的因果关系比可以使用观测数据的回归分析得到的。当控制实验是不可行的,回归分析等工具变量回归变量可以用来尝试从观测数据估计的因果关系。

金融[编辑]

資本資產定價模型利用線性回歸以及Beta係數的概念分析和計算投資的系統風險。這是從聯系投資回報和所有風險性資產回報的模型Beta係數直接得出的。

经济学[编辑]

线性回归是经济学的主要实证工具。例如,它是用来预测消费支出,固定投资支出,存货投资,一国出口产品的购买,进口支出,要求持有流动性资产,劳动力需求、劳动力供给。

参考文献[编辑]

引用[编辑]

书籍[编辑]

  • Cohen, J., Cohen P., West, S.G., & Aiken, L.S. Applied multiple regression/correlation analysis for the behavioral sciences. Hillsdale, NJ: Lawrence Erlbaum Associates. 2003. 
  • Draper, N.R. and Smith, H. Applied Regression Analysis. Wiley Series in Probability and Statistics. 1998. 
  • Robert S. Pindyck and Daniel L. Rubinfeld. Chapter One//Econometric Models and Economic Forecasts. 1998. 
  • Charles Darwin. The Variation of Animals and Plants under Domestication. (1868) (Chapter XIII describes what was known about reversion in Galton's time. Darwin uses the term "reversion".)

刊物文章[编辑]

深入阅读[编辑]

  • Pedhazur, Elazar J. Multiple regression in behavioral research: Explanation and prediction 2nd. New York: Holt, Rinehart and Winston. 1982. ISBN 0-03-041760-0 
  • Barlow, Jesse L. Chapter 9: Numerical aspects of Solving Linear Least Squares Problems//In Rao, C.R. Computational Statistics. Handbook of Statistics 9. North-Holland. 1993. ISBN 0-444-88096-8 
  • Björck, Åke. Numerical methods for least squares problems. Philadelphia: SIAM. 1996. ISBN 0-89871-360-9. 
  • Goodall, Colin R. Chapter 13: Computation using the QR decomposition//In Rao, C.R. Computational Statistics. Handbook of Statistics 9. North-Holland. 1993. ISBN 0-444-88096-8 
  • National Physical Laboratory. Chapter 1: Linear Equations and Matrices: Direct Methods//Modern Computing Methods. Notes on Applied Science 16 2nd. Her Majesty's Stationery Office. 1961 

参见[编辑]