簡單線性迴歸

本页使用了标题或全文手工转换
维基百科,自由的百科全书
奧肯法則總體經濟學是簡單線性迴歸的實例。圖中應變數(經濟增長率)被推論為與自變數(失業率變動)存在負向的線性關係。

統計學中,簡單線性迴歸是指僅具有單一的自變數線性迴歸[1][2][3][4][5],其中「簡單」係單一自變數之意。此迴歸可用於估計有限的截距斜率以推論應變數在特定自變數為條件下的均值

普通最小二乘法是常見用於尋求簡單線性迴歸式的方法,目的是得到能使殘差平方和最小的迴歸式。其它方法,諸如最小絕對偏差英语Least absolute deviations(使殘差絕對值的總和最小)、泰爾-森估算(所有樣本點兩兩配對的斜率中位數做為整體斜率)等,亦可應用於簡單線性迴歸的命題。戴明迴歸英语Deming regression(考慮自變數與應變數同時為誤差來源)的功能雖然與上述方法相似但不屬於簡單線性迴歸的範疇,因其不區分自變數與應變數且可能得到多個迴歸式。

以最小平方法處理簡單線性迴歸,則求得的斜率β等於自變數x與應變數y皮爾森積動差相關係數與二者的標準偏差比值的乘積,

而再考慮截距α則保證使迴歸線通過自變數與應變數的均值 (x, y)

計算迴歸式[编辑]

以下皆以普通最小二乘法求解簡單線性迴歸式。考慮以下的數學模型函數

是一條斜率βy軸截距α的直線。通常實際上自變數與應變數並非如此完美的關係而存在未知的誤差εi,即

以表示第對資料中自變數與應變數的關係。此模型稱為簡單線性模型。

計算迴歸式的目標是根據資料計算估計值以「最佳地」估計參數αβ。由於採用最小平方法進行計算,「最佳」係指能使殘差平方和最小的參數估計值為目標。換句話說,我們尋求能使Q函數值最小的解,

此解為[6]

其中

帶入

可得

此式呈現了rxy為預先將自變數與應變數預先標準化後的迴歸斜率。由於rxy界於-11之間,左式的絕對值勢必不大於右式,體現了趨中迴歸英语Regression toward the mean的現象。

表示對應的xy的乘積和,

可使rxy簡化成

簡單線性迴歸的判定係數即為二變數間皮爾森積動差相關係數的平方:

迴歸係數(斜率)的意義[编辑]

的估計式分子乘以,可改寫為

可以看出,迴歸式的斜率為為權數的加權平均。因此,越大的資料對斜率的影響力越大。

截距的意義[编辑]

可經由下列式子估算: 。 由於,其中即為與橫軸正值的夾角,可以得到

參考文獻[编辑]

  1. ^ Seltman, Howard J. Experimental Design and Analysis (PDF). 2008-09-08: 227. 
  2. ^ Statistical Sampling and Regression: Simple Linear Regression. Columbia University. [2016-10-17]. When one independent variable is used in a regression, it is called a simple regression;(...) 
  3. ^ Lane, David M. Introduction to Statistics (PDF). : 462. 
  4. ^ Zou KH; Tuncali K; Silverman SG. Correlation and simple linear regression.. Radiology. 2003, 227 (3): 617–22. ISSN 0033-8419. OCLC 110941167. PMID 12773666. doi:10.1148/radiol.2273011499 (English). 
  5. ^ Altman, Naomi; Krzywinski, Martin. Simple linear regression. Nature Methods. 2015, 12 (11): 999–1000. ISSN 1548-7091. OCLC 5912005539. PMID 26824102. doi:10.1038/nmeth.3627 (English). 
  6. ^ Kenney, J. F. and Keeping, E. S. (1962) "Linear Regression and Correlation." Ch. 15 in Mathematics of Statistics, Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252–285