跳转到内容

误差

维基百科，自由的百科全书

迴歸分析
统计学系列条目

模型
線性回歸简单线性回归普通最小二乘法（OLS）多项式回归一般线性模型
廣義線性模式离散选择（英语：Discrete choice）对数几率回归多项罗吉特（英语：Multinomial logit）混合罗吉特波比（英语：Probit model）多项式波比（英语：Multinomial probit）排序性模型（英语：Ordered logit）有序波比（英语：Ordered probit）泊松回归
等级线性模型固定效应（英语：Fixed effects model）随机效应（英语：Random effects model）混合模型（英语：Mixed model）
非线性回归非参数半参数稳健分位数迴歸保序回归主成分最小角局部（英语：Local regression）分段
含误差变量（英语：Errors-in-variables models）
估计
最小二乘法普通最小二乘法线性偏最小二乘回归总体（英语：Total least squares）广义加权非线性非负（英语：Non-negative least squares）重复再加权（英语：Iteratively reweighted least squares）脊迴歸（嶺迴歸） LASSO
最小绝对值导数法（英语：Least absolute deviations）贝叶斯（英语：Bayesian linear regression）贝叶斯多元
背景
回归模型驗證（英语：Regression model validation）平均响应和预测响应（英语：Mean and predicted response）误差和残差拟合优度学生化残差（英语：Studentized residual）高斯-马尔可夫定理
概率与统计主题
查论编

统计学和最优化中，误差（error）和残差（residual）是两个相近但有区别的概念，二者均是统计样本中某一元素的观测值（英语：observed value）与其“真值”（未必可直接观测得到）之间的离差的度量。观察的误差是观测值与相关量（例如总体平均值）的真值之间的差值。残差是观测值与统计量的估计值（例如样本均值）之间的差值。这种区别在迴歸分析中至关重要，回归分析中，这些概念有时称为回归误差（regression errors）和回归残差（regression residuals），它们引出了学生化残差（英语：studentized residual）的概念。

计量经济学中，误差也称为扰动（disturbances）。^[1]^[2]^[3]

简介

假设有一系列取自单变量分布（英语：univariate distribution）的观察结果，我们想要估计该分布的平均值。此时，误差是观测值与总体均值的偏差，而残差是观测值与样本均值的偏差。

统计误差（statistical error）是观察值与其期望值的差异程度，而期望值基于随机选择统计单位的总体。例如，如果21岁男性的平均身高为1.75米，而随机选出的一名男性身高为1.80米，则“误差”为0.05米；如果随机选出男性人身高1.70米，则“误差”为-0.05 米。期望值是整个总体的均值，通常是无法观测的，因此统计误差也无从知晓。

而残差（residual）是对无法观测的统计误差的可观测估计。在上述的男性身高的例子中，假设我们随机抽取n个人作为样本。样本均值可以很好地估计总体均值。此时：

样本中每个人的身高与无法观测的总体均值之间的差值是统计误差，
样本中每个人的身高与可观测的样本均值之间的差值是残差。

注意，由于样本均值的定义，随机样本内的残差之和必然为零，因此残差必然不是相互独立的。而统计误差是独立的，它们在随机样本中的总和几乎肯定不为零。

统计误差（尤其是正态分布的）的数值可以用標準分數（或“z分数”）来标准化，而残差可以用t统计量（英语：t-statistic），或更一般的学生化残差（英语：studentized residuals）来标准化。

单变量分布

假定有一个均值为 $μ$ 、標準差为 $σ$ 的正态分布总体，从中随机选择个体，得到样本：

X_{1},\dots ,X_{n}\sim N\left(\mu ,\sigma ^{2}\right)\,

其样本均值为

{\overline {X}}={X_{1}+\cdots +X_{n} \over n}

它是一个随机变量分布，服从：

{\overline {X}}\sim N\left(\mu ,{\frac {\sigma ^{2}}{n}}\right).

其统计误差为：

e_{i}=X_{i}-\mu ,\,

其期望值为0，^[4]而残差为：

r_{i}=X_{i}-{\overline {X}}.

统计误差的平方和除以 $σ 2$ ，得到自由度为 $n$ 的卡方分布：

{\frac {1}{\sigma ^{2}}}\sum _{i=1}^{n}e_{i}^{2}\sim \chi _{n}^{2}.

然而，因为总体均值未知，这个数量是不可观测的。但是，残差的平方和是可观测的。该总和除以 $σ 2$ 的商是 $n - 1$ 自由度的卡方分布：

{\frac {1}{\sigma ^{2}}}\sum _{i=1}^{n}r_{i}^{2}\sim \chi _{n-1}^{2}.

自由度为 $n$ 和 $n - 1$ 之间的区别是对总体（均值、方差未知）的方差估计值的贝塞尔校正（英语：Bessel's correction）。若总体均值已知，则无需进行校正。

参见

参考文献

^ Kennedy, P. A Guide to Econometrics. Wiley. 2008: 576 [2022-05-13]. ISBN 978-1-4051-8257-7. （原始内容存档于2022-07-12）.
^ Wooldridge, J.M. Introductory Econometrics: A Modern Approach. Cengage Learning. 2019: 57 [2022-05-13]. ISBN 978-1-337-67133-0. （原始内容存档于2022-07-12）.
^ Das, P. Econometrics in Theory and Practice: Analysis of Cross Section, Time Series and Panel Data with Stata 15.1. Springer Singapore. 2019: 7 [2022-05-13]. ISBN 978-981-329-019-8. （原始内容存档于2022-07-12）.
^ Wetherill, G. Barrie. Intermediate statistical methods. London: Chapman and Hall. 1981. ISBN 0-412-16440-X. OCLC 7779780.

Cook, R. Dennis; Weisberg, Sanford. Residuals and Influence in Regression. Repr. New York: Chapman and Hall. 1982 [23 February 2013]. ISBN 041224280X. （原始内容存档于2022-04-06）.
Cox, David R.; Snell, E. Joyce. A general definition of residuals. Journal of the Royal Statistical Society, Series B. 1968, 30 (2): 248–275. JSTOR 2984505.
Weisberg, Sanford. Applied Linear Regression 2nd. New York: Wiley. 1985 [23 February 2013]. ISBN 9780471879572. （原始内容存档于2022-07-12）.
Hazewinkel, Michiel (编), Errors, theory of, 数学百科全书, Springer, 2001, ISBN 978-1-55608-010-4

外部链接

维基共享资源上的相關多媒體資源：误差

描述统计学

集中趋势	平均数平方算術幾何調和算术-几何几何-调和希羅／平均数不等式中位數眾數

离散程度	全距变异系数百分位數四分位距四分位数標準差方差平均差標準分數切比雪夫不等式基尼系数

分布形态（英语：Shape of the distribution）	中心极限定理矩偏態峰態

次數（英语：Count data）
· 列聯表（英语：Contingency table）

推論統計學
和假說檢定

推論統計學	置信区间區間估計显著性差异元分析贝叶斯推断

实验设计	总体抽樣重抽样刀切法自助法交叉驗證重复（英语：Replication (statistics)）阻碍靈敏度和特異度區集（英语：Blocking (statistics)）缺失数据

样本量（英语：Sample size）	標準誤零假设备择假设第一类错误与第二类错误统计功效效应值

常规估计	贝叶斯推断區間估計最大似然估计最小距離估計（英语：Minimum distance estimation）矩估计最大间距

假设检验	Z檢驗学生t检验 F檢定卡方检验 Wald檢定（英语：Wald test）曼-惠特尼檢定（英语：Mann–Whitney U test）秩和检验

生存分析	生存函数乘積極限估計量對數秩和檢定失效率危險比例模式

相關及
迴歸分析

相关性	干擾因素皮尔逊積矩相關係數等級相關（英语：Rank correlation） (斯皮尔曼等级相关系数肯德等級相關係數（英语：Kendall tau rank correlation coefficient）) 自由度误差和残差

線性回歸	線性模型（英语：Linear model）一般线性模型廣義線性模型簡單線性迴歸普通最小二乘法贝叶斯回归（英语：Bayesian linear regression）方差分析协方差分析（英语：Analysis of covariance）

非线性回归	非参数回归模型（英语：Nonparametric regression）半参数回归模型（英语：Semiparametric regression）邏輯斯諦迴歸

其他

检索自“https://zh.wikipedia.org/w/index.php?title=误差&oldid=78677250”

分类：

隐藏分类：