誤差

維基百科，自由的百科全書

（重新導向自残差）

迴歸分析
統計學系列條目

模型
線性回歸簡單線性迴歸普通最小平方法（OLS）多項式迴歸一般線性模型
廣義線性模式離散選擇（英語：Discrete choice）對數幾率迴歸多項羅吉特（英語：Multinomial logit）混合羅吉特波比（英語：Probit model）多項式波比（英語：Multinomial probit）排序性模型（英語：Ordered logit）有序波比（英語：Ordered probit）泊松迴歸
等級線性模型固定效應（英語：Fixed effects model）隨機效應（英語：Random effects model）混合模型（英語：Mixed model）
非線性迴歸非參數半參數穩健分位數迴歸保序迴歸主成分最小角局部（英語：Local regression）分段
含誤差變量（英語：Errors-in-variables models）
估計
最小平方法普通最小平方法線性偏最小平方迴歸總體（英語：Total least squares）廣義加權非線性非負（英語：Non-negative least squares）重複再加權（英語：Iteratively reweighted least squares）脊迴歸（嶺迴歸） LASSO
最小絕對值導數法（英語：Least absolute deviations）貝葉斯（英語：Bayesian linear regression）貝葉斯多元
背景
迴歸模型驗證（英語：Regression model validation）平均響應和預測響應（英語：Mean and predicted response）誤差和殘差適合度學生化殘差（英語：Studentized residual）高斯-馬可夫定理
概率與統計主題
閱論編

統計學和最佳化中，誤差（error）和殘差（residual）是兩個相近但有區別的概念，二者均是統計樣本中某一元素的觀測值（英語：observed value）與其「真值」（未必可直接觀測得到）之間的離差的度量。觀察的誤差是觀測值與相關量（例如總體平均值）的真值之間的差值。殘差是觀測值與統計量的估計值（例如樣本均值）之間的差值。這種區別在迴歸分析中至關重要，迴歸分析中，這些概念有時稱為迴歸誤差（regression errors）和迴歸殘差（regression residuals），它們引出了學生化殘差（英語：studentized residual）的概念。

計量經濟學中，誤差也稱為擾動（disturbances）。^[1]^[2]^[3]

簡介

假設有一系列取自單變量分佈（英語：univariate distribution）的觀察結果，我們想要估計該分佈的平均值。此時，誤差是觀測值與總體均值的偏差，而殘差是觀測值與樣本均值的偏差。

統計誤差（statistical error）是觀察值與其期望值的差異程度，而期望值基於隨機選擇統計單位的總體。例如，如果21歲男性的平均身高為1.75米，而隨機選出的一名男性身高為1.80米，則「誤差」為0.05米；如果隨機選出男性人身高1.70米，則「誤差」為-0.05 米。期望值是整個總體的均值，通常是無法觀測的，因此統計誤差也無從知曉。

而殘差（residual）是對無法觀測的統計誤差的可觀測估計。在上述的男性身高的例子中，假設我們隨機抽取n個人作為樣本。樣本均值可以很好地估計總體均值。此時：

樣本中每個人的身高與無法觀測的總體均值之間的差值是統計誤差，
樣本中每個人的身高與可觀測的樣本均值之間的差值是殘差。

注意，由於樣本均值的定義，隨機樣本內的殘差之和必然為零，因此殘差必然不是相互獨立的。而統計誤差是獨立的，它們在隨機樣本中的總和幾乎肯定不為零。

統計誤差（尤其是正態分佈的）的數值可以用標準分數（或「z分數」）來標準化，而殘差可以用t統計量（英語：t-statistic），或更一般的學生化殘差（英語：studentized residuals）來標準化。

單變量分佈

假定有一個均值為 $μ$ 、標準差為 $σ$ 的正態分佈總體，從中隨機選擇個體，得到樣本：

X_{1},\dots ,X_{n}\sim N\left(\mu ,\sigma ^{2}\right)\,

其樣本均值為

{\overline {X}}={X_{1}+\cdots +X_{n} \over n}

它是一個隨機變量分佈，服從：

{\overline {X}}\sim N\left(\mu ,{\frac {\sigma ^{2}}{n}}\right).

其統計誤差為：

e_{i}=X_{i}-\mu ,\,

其期望值為0，^[4]而殘差為：

r_{i}=X_{i}-{\overline {X}}.

統計誤差的平方和除以 $σ 2$ ，得到自由度為 $n$ 的卡方分佈：

{\frac {1}{\sigma ^{2}}}\sum _{i=1}^{n}e_{i}^{2}\sim \chi _{n}^{2}.

然而，因為總體均值未知，這個數量是不可觀測的。但是，殘差的平方和是可觀測的。該總和除以 $σ 2$ 的商是 $n - 1$ 自由度的卡方分佈：

{\frac {1}{\sigma ^{2}}}\sum _{i=1}^{n}r_{i}^{2}\sim \chi _{n-1}^{2}.

自由度為 $n$ 和 $n - 1$ 之間的區別是對總體（均值、方差未知）的方差估計值的貝塞爾校正（英語：Bessel's correction）。若總體均值已知，則無需進行校正。

參見

參考文獻

^ Kennedy, P. A Guide to Econometrics. Wiley. 2008: 576 [2022-05-13]. ISBN 978-1-4051-8257-7. （原始內容存檔於2022-07-12）.
^ Wooldridge, J.M. Introductory Econometrics: A Modern Approach. Cengage Learning. 2019: 57 [2022-05-13]. ISBN 978-1-337-67133-0. （原始內容存檔於2022-07-12）.
^ Das, P. Econometrics in Theory and Practice: Analysis of Cross Section, Time Series and Panel Data with Stata 15.1. Springer Singapore. 2019: 7 [2022-05-13]. ISBN 978-981-329-019-8. （原始內容存檔於2022-07-12）.
^ Wetherill, G. Barrie. Intermediate statistical methods. London: Chapman and Hall. 1981. ISBN 0-412-16440-X. OCLC 7779780.

Cook, R. Dennis; Weisberg, Sanford. Residuals and Influence in Regression. Repr. New York: Chapman and Hall. 1982 [23 February 2013]. ISBN 041224280X. （原始內容存檔於2022-04-06）.
Cox, David R.; Snell, E. Joyce. A general definition of residuals. Journal of the Royal Statistical Society, Series B. 1968, 30 (2): 248–275. JSTOR 2984505.
Weisberg, Sanford. Applied Linear Regression 2nd. New York: Wiley. 1985 [23 February 2013]. ISBN 9780471879572. （原始內容存檔於2022-07-12）.
Hazewinkel, Michiel (編), Errors, theory of, 数学百科全书, Springer, 2001, ISBN 978-1-55608-010-4

外部連結

維基共享資源上的相關多媒體資源：誤差

敘述統計學

集中趨勢	平均數平方算術幾何調和算術-幾何幾何-調和希羅／平均數不等式中位數眾數
離散程度	全距變異系數百分位數四分位距四分位數標準差方差平均差標準分數切比雪夫不等式堅尼係數
分佈形態（英語：Shape of the distribution）	中心極限定理動差偏態峰態

次數（英語：Count data）
· 列聯表（英語：Contingency table）

推論統計學
和假設檢定

推論統計學	信賴區間區間估計顯著性差異元分析貝氏推論
實驗設計	總體抽樣重抽樣刀切法自助法交叉驗證重複（英語：Replication (statistics)）阻礙靈敏度和特異度區集（英語：Blocking (statistics)）缺失數據
樣本量（英語：Sample size）	標準誤虛無假設備擇假設第一型錯誤與第二型錯誤統計功效效應值
常規估計	貝氏推論區間估計最大概似估計最小距離估計（英語：Minimum distance estimation）動差估計最大間距
假設檢驗	Z檢驗學生t檢驗 F檢驗卡方檢驗 Wald檢驗（英語：Wald test）曼-惠特尼檢驗（英語：Mann–Whitney U test）秩和檢驗
生存分析	生存函數乘積極限估計量對數秩和檢驗失效率危險比例模式

相關及
迴歸分析

相關性	干擾因素皮爾森積動差相關系數等級相關（英語：Rank correlation） (斯皮爾曼等級相關係數肯德等級相關系數（英語：Kendall tau rank correlation coefficient）) 自由度誤差和殘差
線性回歸	線性模型（英語：Linear model）一般線性模型廣義線性模型簡單線性迴歸普通最小平方法貝葉斯迴歸（英語：Bayesian linear regression）方差分析協方差分析（英語：Analysis of covariance）
非線性迴歸	非參數迴歸模型（英語：Nonparametric regression）半參數迴歸模型（英語：Semiparametric regression）邏輯斯諦迴歸

其他

取自 "https://zh.wikipedia.org/w/index.php?title=误差&oldid=78677250"

分類：

隱藏分類：