線性回歸

維基百科,自由的百科全書
前往: 導覽搜尋

統計學中,線性回歸是利用稱為線性回歸方程的最小平方函數對一個或多個自變量因變量之間關係進行建模的一種回歸分析。這種函數是一個或多個稱為回歸係數的模型參數的線性組合。只有一個自變數的情況稱為簡單回歸,大於一個自變數情況的叫做多元回歸。(這反過來又應當由多個相關的因變數預測的多元線性回歸區別[來源請求],而不是一個單一的純量變數。)

在線性回歸中,數據使用線性預測函數來建模,並且未知的模型參數也是通過數據來估計。這些模型被叫做線性模型。最常用的線性回歸建模是給定X值的y的條件均值是X的仿射函數。不太一般的情況,線性回歸模型可以是一個中位數或一些其他的給定X的條件下y的條件分布的分位數作為X的線性函數表示。像所有形式的回歸分析一樣,線性回歸也把焦點放在給定X值的y的條件機率分布,而不是X和y的聯合機率分布(多元分析領域)。

線性回歸是回歸分析中第一種經過嚴格研究並在實際應用中廣泛使用的類型。這是因為線性依賴於其未知參數的模型比非線性依賴於其位置參數的模型更容易擬合,而且產生的估計的統計特性也更容易確定。

線性回歸有很多實際用途。分為以下兩大類:

1. 如果目標是預測或者映射,線性回歸可以用來對觀測數據集的和X的值擬合出一個預測模型。當完成這樣一個模型以後,對於一個新增的X值,在沒有給定與它相配對的y的情況下,可以用這個擬合過的模型預測出一個y值。

2. 給定一個變數y和一些變數X1,...,Xp,這些變數有可能與y相關,線性回歸分析可以用來量化y與Xj之間相關性的強度,評估出與y不相關的Xj,並識別出哪些Xj的子集包含了關於y的冗餘信息。

線性回歸模型經常用最小平方逼近來擬合,但他們也可能用別的方法來擬合,比如用最小化「擬合缺陷」在一些其他規範里(比如最小絕對誤差回歸),或者在橋回歸中最小化最小平方損失函數的懲罰.相反,最小平方逼近可以用來擬合那些非線性的模型.因此,儘管「最小平方法」和「線性模型」是緊密相連的,但他們是不能劃等號的。

帶有一個自變量的線性回歸

簡介[編輯]

理論模型[編輯]

給一個隨機樣本 (Y_i, X_{i1}, \ldots, X_{ip}), \, i = 1, \ldots, n ,一個線性回歸模型假設回歸子 Y_i 和回歸量 X_{i1}, \ldots, X_{ip} 之間的關係是除了X的影響以外,還有其他的變數存在。我們加入一個誤差項 \varepsilon_i (也是一個隨機變量)來捕獲除了X_{i1}, \ldots, X_{ip} 之外任何對 Y_i 的影響。所以一個多變量線性回歸模型表示為以下的形式:

 Y_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \ldots + \beta_p X_{ip} + \varepsilon_i, \qquad i = 1, \ldots, n

其他的模型可能被認定成非線性模型。一個線性回歸模型不需要是自變量的線性函數。線性在這裡表示 Y_i 的條件均值在參數\beta裡是線性的。例如:模型 Y_i = \beta_1 X_i + \beta_2 X_i^2 + \varepsilon_i  \beta_1  \beta_2 裡是線性的,但在 X_i^2 裡是非線性的,它是 X_i 的非線性函數。

數據和估計[編輯]

區分隨機變量和這些變量的觀測值是很重要的。通常來說,觀測值或數據(以小寫字母表記)包括了n個值  (y_i, x_{i1}, \ldots, x_{ip}), \, i = 1, \ldots, n .

我們有 p + 1 個參數 \beta_0, \ldots, \beta_p 需要決定,為了估計這些參數,使用矩陣表記是很有用的。

 Y = X \beta + \varepsilon \,

其中Y是一個包括了觀測值 Y_1, \ldots, Y_n 的列向量, \varepsilon 包括了未觀測的隨機成份 \varepsilon_1, \ldots, \varepsilon_n 以及回歸量的觀測值矩陣 X

 X = \begin{pmatrix} 1 & x_{11} & \cdots & x_{1p} \\ 1 & x_{21} & \cdots & x_{2p}\\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n1} & \cdots & x_{np} \end{pmatrix}

X通常包括一個常數項。

如果X列之間存在線性相依,那麼參數向量\beta就不能以最小平方法估計除非\beta被限制,比如要求它的一些元素之和為0。

古典假設[編輯]

  • 樣本是在母體之中隨機抽取出來的。
  • 因變量Y在實直線上是連續的
  • 殘差項是獨立相同分佈的(iid),也就是說,殘差是獨立隨機的,且服從高斯分佈

這些假設意味著殘差項不依賴自變量的值,所以 \varepsilon_i 和自變量X(預測變量)之間是相互獨立的。

在這些假設下,建立一個顯示線性回歸作為條件預期模型的簡單線性回歸,可以表示為:

 \mbox{E}(Y_i \mid X_i = x_i) = \alpha + \beta x_i \,

最小平方法分析[編輯]

最小平方法估計[編輯]

回歸分析的最初目的是估計模型的參數以便達到對數據的最佳擬合。在決定一個最佳擬合的不同標準之中,最小平方法是非常優越的。這種估計可以表示為:

 \hat\beta = (X^T X)^{-1}X^T y \,

回歸推論[編輯]

對於每一個 i=1,\ldots,n ,我們用 \sigma^2 代表誤差項 \varepsilon 的變異數。一個無偏誤的估計是:

\hat \sigma^2  = \frac {S} {n-p} ,

其中 S := \sum_{i=1}^n \hat{\varepsilon}_i^2 是誤差平方和(殘差平方和)。估計值和實際值之間的關係是:

\hat\sigma^2 \cdot \frac{n-p}{\sigma^2} \sim  \chi_{n-p}^2

其中 \chi_{n-p}^2 服從卡方分佈,自由度是n-p

對普通方程的解可以冩為:

\hat{\boldsymbol\beta}=(\mathbf{X^TX)^{-1}X^Ty}.

這表示估計項是因變量的線性組合。進一步地說,如果所觀察的誤差服從正態分佈。參數的估計值將服從聯合正態分佈。在當前的假設之下,估計的參數向量是精確分佈的。

 \hat\beta \sim N ( \beta, \sigma^2 (X^TX)^{-1} )

其中N(\cdot)表示多變量正態分佈

參數估計值的標準差是:

\hat\sigma_j=\sqrt{ \frac{S}{n-p}\left[\mathbf{(X^TX)}^{-1}\right]_{jj}}.

參數\beta_j 100(1-\alpha)% 置信區間可以用以下式子來計算:

\hat \beta_j  \pm t_{\frac{\alpha }{2},n - p} \hat \sigma_j.

誤差項可以表示為:

\mathbf{\hat r =  y-X \hat{\boldsymbol{\beta}}= y-X(X^TX)^{-1}X^Ty}.\,

單變量線性回歸[編輯]

單變量線性回歸,又稱簡單線性回歸(simple linear regression, SLR),是最簡單但用途很廣的回歸模型。其回歸式為:

 Y = \alpha + \beta X + \varepsilon

為了估計 \alpha  \beta ,我們有一個樣本 (y_i, x_i), \, i = 1, \ldots, n

最小平方法就是將未知量殘差平方和最小化:

 \sum_{i = 1}^n \varepsilon_i^2 = \sum_{i = 1}^n (y_i - \alpha - \beta x_i)^2

分別對 \alpha  \beta 求導得到正規方程

\begin{array}{lcl}
n\  \alpha + \sum_{i = 1}^n x_i\  \beta = \sum_{i = 1}^n y_i \\
\sum_{i = 1}^n x_i\  \alpha + \sum_{i = 1}^n x_i^2\  \beta = \sum_{i = 1}^n x_i y_i
\end{array}

此線性方程組可以用克萊姆法則來求解:

\hat\beta = \frac {n \sum_{i = 1}^n x_i y_i - \sum_{i = 1}^n x_i \sum_{i = 1}^n y_i} {n \sum_{i = 1}^n x_i^2 - \left(\sum_{i = 1}^n x_i\right)^2}
=\frac{\sum_{i = 1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i = 1}^n(x_i-\bar{x})^2}
\,
\hat\alpha = \frac {\sum_{i = 1}^n x_i^2 \sum_{i = 1}^n y_i - \sum_{i = 1}^n x_i \sum_{i = 1}^n x_iy_i} {n \sum_{i = 1}^n x_i^2 - \left(\sum_{i = 1}^n x_i\right)^2}= \bar y-\bar x \hat\beta
S = \sum_{i = 1}^n (y_i - \hat{y}_i)^2 
= \sum_{i = 1}^n y_i^2 - \frac {n (\sum_{i = 1}^n x_i y_i)^2 + (\sum_{i = 1}^n y_i)^2 \sum_{i = 1}^n x_i^2 - 2 \sum_{i = 1}^n x_i \sum_{i = 1}^n y_i \sum_{i = 1}^n x_i y_i } {n \sum_{i = 1}^n x_i^2 - \left(\sum_{i = 1}^n x_i\right)^2}
\hat \sigma^2  = \frac {S} {n-2}.

協變異數矩陣是:

\frac{1}{n \sum_{i = 1}^n x_i^2 - \left(\sum_{i = 1}^n x_i\right)^2}\begin{pmatrix}
  \sum x_i^2 & -\sum x_i \\
  -\sum x_i & n   
\end{pmatrix}

平均響應置信區間為:

y_d = (\alpha+\hat\beta x_d) \pm t_{ \frac{\alpha }{2} ,n-2} \hat \sigma \sqrt {\frac{1}{n} + \frac{(x_d - \bar{x})^2}{\sum (x_i - \bar{x})^2}}

預報響應置信區間為:

y_d = (\alpha+\hat\beta x_d) \pm t_{ \frac{\alpha }{2} ,n-2} \hat \sigma \sqrt {1+\frac{1}{n} + \frac{(x_d - \bar{x})^2}{\sum (x_i - \bar{x})^2}}

變異數分析[編輯]

變異數分析(ANOVA)中,總平方和分解為兩個或更多部分。

總平方和SST (sum of squares for total) 是:

 \text{SST} = \sum_{i=1}^n (y_i - \bar y)^2 ,其中:  \bar y = \frac{1}{n} \sum_i y_i

同等地:

 \text{SST}  = \sum_{i=1}^n y_i^2 - \frac{1}{n}\left(\sum_i y_i\right)^2

回歸平方和SSReg (sum of squares for regression。也可寫做模型平方和,SSM,sum of squares for model) 是:

\text{SSReg} = \sum \left( \hat y_i  - \bar y  \right)^2
= \hat{\boldsymbol\beta}^T \mathbf{X}^T
\mathbf y - \frac{1}{n}\left( \mathbf {y^T u u^T y} \right),

殘差平方和SSE (sum of squares for error) 是:

\text{SSE} = \sum_i {\left( {y_i  - \hat y_i} \right)^2 }
= \mathbf{ y^T y - \hat{\boldsymbol\beta}^T X^T y}.

總平方和SST又可寫做SSReg和SSE的和:

\text{SST} = \sum_i \left( y_i-\bar y \right)^2 = \mathbf{ y^T y}-\frac{1}{n}\left( \mathbf{y^Tuu^Ty}\right)=\text{SSReg}+ \text{SSE}.

回歸係數R2是:

R^2  = \frac{\text{SSReg}}{{\text{SST}}}
= 1 - \frac{\text{SSE}}{\text{SST}}.

其他方法[編輯]

廣義最小平方法[編輯]

廣義最小平方法可以用在當觀測誤差具有異變異數或者自相關的情況下。

總體最小平方法[編輯]

總體最小平方法用於當自變量有誤時。

廣義線性模式[編輯]

廣義線性模式應用在當誤差分佈函數不是正態分佈時。比如指數分佈伽瑪分佈逆高斯分佈卜瓦松分佈二項式分佈等。

穩健回歸[編輯]

將平均絕對誤差最小化,不同於在線性回歸中是將均方誤差最小化。

線性回歸的應用[編輯]

趨勢線[編輯]

一條趨勢線代表著時間序列數據的長期走勢。它告訴我們一組特定數據(如GDP、石油價格和股票價格)是否在一段時期內增長或下降。雖然我們可以用肉眼觀察數據點在坐標系的位置大體畫出趨勢線,更恰當的方法是利用線性回歸計算出趨勢線的位置和斜率。

流行病學[編輯]

有關吸煙死亡率發病率影響的早期證據來自採用了回歸分析的| 觀察研究。為了在分析觀測數據時減少| 偽相關,除最感興趣的變數之外,通常研究人員還會在他們的回歸模型里包括一些額外變數。例如,假設我們有一個回歸模型,在這個回歸模型中吸煙行為是我們最感興趣的獨立變數,其相關變數是經數年觀察得到的吸煙者壽命。研究人員可能將社會經濟地位當成一個額外的獨立變數,已確保任何經觀察所得的吸煙對壽命的影響不是由於教育或收入差異引起的。然而,我們不可能把所有可能混淆結果的變數都加入到實證分析中。例如,某種不存在的基因可能會增加人死亡的幾率,還會讓人的吸煙量增加。因此,比起採用觀察數據的回歸分析得出的結論,隨機對照試驗常能產生更令人信服的因果關係證據。當可控實驗不可行時,回歸分析的衍生,如工具變數回歸,可嘗試用來估計觀測數據的因果關係。

金融[編輯]

資本資產定價模型利用線性回歸以及Beta係數的概念分析和計算投資的系統風險。這是從聯系投資回報和所有風險性資產回報的模型Beta係數直接得出的。

經濟學[編輯]

線性回歸是經濟學的主要實證工具。例如,它是用來預測消費支出,固定投資支出,存貨投資,一國出口產品的購買,進口支出,要求持有流動性資產,勞動力需求、勞動力供給。

參考文獻[編輯]

引用[編輯]

書籍[編輯]

  • Cohen, J., Cohen P., West, S.G., & Aiken, L.S. Applied multiple regression/correlation analysis for the behavioral sciences. Hillsdale, NJ: Lawrence Erlbaum Associates. 2003. 
  • Draper, N.R. and Smith, H. Applied Regression Analysis. Wiley Series in Probability and Statistics. 1998. 
  • Robert S. Pindyck and Daniel L. Rubinfeld. Chapter One. Econometric Models and Economic Forecasts. 1998. 
  • Charles Darwin. The Variation of Animals and Plants under Domestication. (1868) (Chapter XIII describes what was known about reversion in Galton's time. Darwin uses the term "reversion".)

刊物文章[編輯]

深入閱讀[編輯]

  • Pedhazur, Elazar J. Multiple regression in behavioral research: Explanation and prediction 2nd. New York: Holt, Rinehart and Winston. 1982. ISBN 0-03-041760-0. 
  • Barlow, Jesse L. Chapter 9: Numerical aspects of Solving Linear Least Squares Problems. (編) Rao, C.R. Computational Statistics. Handbook of Statistics. North-Holland. 1993. ISBN 0-444-88096-8 
  • Björck, Åke. Numerical methods for least squares problems. Philadelphia: SIAM. 1996. ISBN 0-89871-360-9. 
  • Goodall, Colin R. Chapter 13: Computation using the QR decomposition. (編) Rao, C.R. Computational Statistics. Handbook of Statistics. North-Holland. 1993. ISBN 0-444-88096-8 
  • National Physical Laboratory. Chapter 1: Linear Equations and Matrices: Direct Methods. Modern Computing Methods. Notes on Applied Science 2nd. Her Majesty's Stationery Office. 1961 

參見[編輯]