格鲁布斯检验法

格拉布斯检验法（Grubbs's test），有时也被称为最大归一化残差检验，是一种在统计学中用于分析异常值的方法，因发明者弗兰克·E·格拉布斯（英语：Frank E. Grubbs）而得名^[1]。

定义

格拉布斯检验法基于数据服从正态分布的假设，用于检验单变量（英语：Univariate）数据集内的离群值。因此，在使用格拉布斯检验法时，必须先检验数据的分布是否可以用正态分布进行近似^[2]。

格拉布斯检验法定义于如下假设之上：

H₀：数据集中没有异常值；

H_a：数据集中只有一个异常值。

定义格拉布斯检验统计量为：

G={\frac {\displaystyle \max _{i=1,\ldots ,N}\left\vert X_{i}-{\bar {X}}\right\vert }{s}}

其中， ${\overline {X}}$ 和 $s$ 分别指代的是样本的均值和标准偏差。

如果采用双边检验（英语：two-sided test）的方法，则格拉布斯检验可按照以下步骤进行：

将数据集中的 $n$ 个数值由最小排列到最大，则最小值 $X_{1}$ 或最大值 $X_{n}$ 为可能的可疑数值。若要检验最小值是否为离群值，则可以按如下公式计算：

G={\frac {{\bar {X}}-X_{1}}{s}}

检验最大值时，则为：

G={\frac {X_{n}-{\bar {X}}}{s}}

对该双边检验，若下式成立，则在置信度为 $\alpha$ 处，无偏差值的假设不成立：

G>{\frac {N-1}{\sqrt {N}}}{\sqrt {\frac {t_{\alpha /(2N),N-2}^{2}}{N-2+t_{\alpha /(2N),N-2}^{2}}}}

其中， ${t_{\alpha /(2N),N-2}^{2}}$ 表示t-分布中当自由度为 $N-2$ 、显著性水平为 ${\frac {\alpha }{2N}}$ 时的上临界值。如果采用单边检验方式，则应该将显著性水平改为 ${\frac {\alpha }{N}}$ 。

^ Grubbs, Frank E. Sample criteria for testing outlying observations. Annals of Mathematical Statistics（英语：Annals of Mathematical Statistics）. 1950, 21 (1): 27–58. doi:10.1214/aoms/1177729885.
^ 1.3.5.17 Detection of Outliers. NIST/SEMATECH e-Handbook of Statistical Methods. NIST. 2012 [2019-03-09]. （原始内容存档于2019-06-19）.

Grubbs, Frank. Procedures for Detecting Outlying Observations in Samples. Technometrics (Technometrics, Vol. 11, No. 1). February 1969, 11 (1): 1–21. JSTOR 1266761. doi:10.2307/1266761.
Stefansky, W. Rejecting Outliers in Factorial Designs. Technometrics (Technometrics, Vol. 14, No. 2). 1972, 14 (2): 469–479. JSTOR 1267436. doi:10.2307/1267436.