線性回歸
在統計學中,線性回歸是利用稱為線性回歸方程的最小平方函數對一個或多個自變量和因變量之間關係進行建模的一種回歸分析。這種函數是一個或多個稱為回歸係數的模型參數的線性組合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。(这反过来又应当由多个相关的因变量预测的多元线性回归区别[來源請求],而不是一个单一的标量变量。)
在线性回归中,数据使用线性预测函数来建模,并且未知的模型参数也是通过数据来估计。这些模型被叫做线性模型。最常用的线性回归建模是给定X值的y的条件均值是X的仿射函数。不太一般的情况,线性回归模型可以是一个中位数或一些其他的给定X的条件下y的条件分布的分位数作为X的线性函数表示。像所有形式的回归分析一样,线性回归也把焦点放在给定X值的y的条件概率分布,而不是X和y的联合概率分布(多元分析领域)。
线性回归是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。这是因为线性依赖于其未知参数的模型比非线性依赖于其位置参数的模型更容易拟合,而且产生的估计的统计特性也更容易确定。
线性回归有很多实际用途。分为以下两大类:
1.如果目标是预测或者映射,线性回归可以用来对观测数据集的和X的值拟合出一个预测模型。当完成这样一个模型以后,对于一个新增的X值,在没有给定与它相配对的y的情况下,可以用这个拟合过的模型预测出一个y值。
2.给定一个变量y和一些变量X1,...,Xp,这些变量有可能与y相关,线性回归分析可以用来量化y与Xj之间相关性的强度,评估出与y不相关的Xj,并识别出哪些Xj的子集包含了关于y的冗余信息。
线性回归模型经常用最小二乘逼近来拟合,但他们也可能用别的方法来拟合,比如用最小化“拟合缺陷”在一些其他规范里(比如最小绝对误差回归),或者在桥回归中最小化最小二乘损失函数的惩罚.相反,最小二乘逼近可以用来拟合那些非线性的模型.因此,尽管“最小二乘法”和“线性模型”是紧密相连的,但他们是不能划等号的。
目录 |
簡介 [编辑]
理論模型 [编辑]
給一個随機樣本
,一個線性回歸模型假設回歸子
和回歸量
之間的關係可能是不完美的。我們加入一個誤差項
(也是一個随機變量)來捕獲除了
之外任何對
的影響。所以一個多變量線性回歸模型表示為以下的形式:
其他的模型可能被認定成非線性模型。一個線性回歸模型不需要是自變量的線性函數。線性在這裡表示
的條件均值在參數
裡是線性的。例如:模型
在
和
裡是線性的,但在
裡是非線性的,它是
的非線性函數。
數據和估計 [编辑]
區分随機變量和這些變量的觀測值是很重要的。通常來說,觀測值或數據(以小寫字母表記)包括了n個值
.
我們有
個參數
需要決定,為了估計這些參數,使用矩陣表記是很有用的。
其中Y是一個包括了觀測值
的列向量,
包括了未觀測的随機成份
以及回歸量的觀測值矩陣
:
X通常包括一個常數項。
如果X列之間存在線性相關,那麽參數向量
就不能以最小二乘法估計除非
被限制,比如要求它的一些元素之和為0。
古典假設 [编辑]
樣本是在總體之中随機抽取出來的。因變量在實直線上是連續的,殘差項是獨立同分佈的,也就是說,殘差是独立随机的,且服從高斯分佈。這些假設意味著殘差項不依賴自變量的值,所以
和自變量(预測變量)之間是相互獨立的。
在這些假設下,建立一個顯示線性回歸作為條件预期模型的簡單線性回歸,可以表示為:
最小二乘法分析 [编辑]
最小二乘法估計 [编辑]
回歸分析的最初目的是估計模型的參數以便達到對數據的最佳拟合。在決定一個最佳拟合的不同標準之中,最小二乘法是非常優越的。這種估計可以表示為:
回歸推論 [编辑]
對於每一個
,我們用
代表誤差項
的方差。一個無偏誤的估計是:
其中
是誤差平方和(殘差平方和)。估計值和實際值之間的關係是:
其中
服從卡方分佈,自由度是
對普通方程的解可以冩為:
這表示估計項是因變量的線性組合。進一步地說,如果所觀察的誤差服從正態分佈。參數的估計值將服從聯合正態分佈。在當前的假設之下,估計的參數向量是精確分佈的。
其中
表示多變量正態分佈。
參數估計值的標準差是:
參數
的
置信區間可以用以下式子來計算:
誤差項可以表示為:
單變量線性回歸 [编辑]
單變量線性回歸,又稱簡單線性回歸(simple linear regression, SLR),是最簡單但用途很廣的回歸模型。其回歸式為:
為了估計
和
,我們有一個樣本
最小二乘法就是將未知量殘差平方和最小化:
分别對
和
求導得到正規方程:
此線性方程組可以用克萊姆法則來求解:
協方差矩陣是:
平均響應置信區間為:
預報響應置信區間為:
方差分析 [编辑]
在方差分析(ANOVA)中,總平方和分解為兩個或更多部分。
總平方和SST (sum of squares for total) 是:
,其中: 
同等地:
回歸平方和SSReg (sum of squares for regression。也可寫做模型平方和,SSM,sum of squares for model) 是:
殘差平方和SSE (sum of squares for error) 是:
總平方和SST又可寫做SSReg和SSE的和:
回歸係數R2是:
其他方法 [编辑]
廣義最小二乘法 [编辑]
廣義最小二乘法可以用在當觀測誤差具有異方差或者自相關的情況下。
總體最小二乘法 [编辑]
總體最小二乘法用於當自變量有誤時。
廣義線性模式 [编辑]
廣義線性模式應用在當誤差分佈函數不是正態分佈時。比如指數分佈,伽瑪分佈,逆高斯分佈,泊松分佈,二項式分佈等。
穩健回歸 [编辑]
將平均絕對誤差最小化,不同於在線性回歸中是將均方誤差最小化。
線性回歸的應用 [编辑]
趨勢線 [编辑]
一條趨勢線代表著時間序列數據的長期走勢。它告訴我們一組特定數據(如GDP、石油價格和股票價格)是否在一段時期内增長或下降。雖然我們可以用肉眼觀察數據點在坐標系的位置大體畫出趨勢線,更恰當的方法是利用線性回歸計算出趨勢線的位置和斜率。
金融 [编辑]
資本資產定價模型利用線性回歸以及Beta係數的概念分析和計算投資的系統風險。這是從聯系投資回報和所有風險性資產回報的模型Beta係數直接得出的。
相关词条 [编辑]
- 方差分析
- 安斯库姆四重奏
- 横截面回归
- 曲线拟合
- 经验贝叶斯方法
- 逻辑斯蒂回归
- M估计
- 非线性回归
- 非参数回归
- 多元自适应回归样条
- Lack-of-fit sum of squares
- 截断回归模型
- 删失回归模型
- 简单线性回归
- 分段线性回归
深入阅读 [编辑]
- Pedhazur, Elazar J. Multiple regression in behavioral research: Explanation and prediction 2nd. New York: Holt, Rinehart and Winston. 1982. ISBN 0-03-041760-0
- Barlow, Jesse L. Chapter 9: Numerical aspects of Solving Linear Least Squares Problems//In Rao, C.R. Computational Statistics. Handbook of Statistics 9. North-Holland. 1993. ISBN 0-444-88096-8
- Björck, Åke. Numerical methods for least squares problems. Philadelphia: SIAM. 1996. ISBN 0-89871-360-9.
- Goodall, Colin R. Chapter 13: Computation using the QR decomposition//In Rao, C.R. Computational Statistics. Handbook of Statistics 9. North-Holland. 1993. ISBN 0-444-88096-8
- National Physical Laboratory. Chapter 1: Linear Equations and Matrices: Direct Methods//Modern Computing Methods. Notes on Applied Science 16 2nd. Her Majesty's Stationery Office. 1961
參考資料 [编辑]
- Cohen, J., Cohen P., West, S.G., & Aiken, L.S. Applied multiple regression/correlation analysis for the behavioral sciences. Hillsdale, NJ: Lawrence Erlbaum Associates. 2003.
- Draper, N.R. and Smith, H. Applied Regression Analysis. Wiley Series in Probability and Statistics. 1998.
- Galton, Francis. Regression Towards Mediocrity in Hereditary Stature. Journal of the Anthropological Institute. 1886, 15: 246–263 [2008-12-30].
- Robert S. Pindyck and Daniel L. Rubinfeld. Chapter One//Econometric Models and Economic Forecasts. 1998.
- Charles Darwin. The Variation of Animals and Plants under Domestication. (1868) (Chapter XIII describes what was known about reversion in Galton's time. Darwin uses the term "reversion".)
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||









![\hat\sigma_j=\sqrt{ \frac{S}{n-p}\left[\mathbf{(X^TX)}^{-1}\right]_{jj}}.](http://upload.wikimedia.org/math/b/e/5/be544ce077148500071dbf2b90c56a9d.png)












,其中: 




