样本均值

样本均值是由一个或多个随机变量中得到的统计量，样本均值是一个向量，其中的每个元素都是针对随机变量取様后得到的算术平均数。若只考虑一个随机变量，则样本均值为一个标量，是随机变量观测值的算术平均。

定义[编辑]

令 $x_{ij}$ 为第j个随机变量（j=1,...,K）在第i次观测（i=1,...,N）到的值，所有观测值可以重组为N个K ×1的向量，其中第i次观测的所有数据用 $\mathbf {x} _{i}$ 表示（i=1,...,N）。

算术平均向量 $\mathbf {\bar {x}}$ 的第j个元素 ${\bar {x}}_{j}$ 是第j个随机变量在N次观测值的平均值：

{\bar {x}}_{j}={\frac {1}{N}}\sum _{i=1}^{N}x_{ij},\quad j=1,\ldots ,K.

因此算术平均向量包括所有随机变量的平均值，可以用以下方式表示：

\mathbf {\bar {x}} ={\frac {1}{N}}\sum _{i=1}^{N}\mathbf {x} _{i}.

样本均值是随机向量（英语：Multivariate random variable） $\textstyle \mathbf {X}$ 期望（若存在）的无偏估计（英语：Bias of an estimator），随机向量是一个列向量，其中第j个元素(j = 1, ..., K)为第j个随机变量^[1]。

样本均值因为是用所有的观测值计算而得，稍微和每次的观测值有关。若总体平均 $\operatorname {E} (\mathbf {X} )$ 已知，其无偏估计值

q_{jk}={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{ij}-\operatorname {E} (X_{j})\right)\left(x_{ik}-\operatorname {E} (X_{k})\right),

用到总体平均，其分母为 $\textstyle N$ 。

样本均值的方差[编辑]

本节中总假定出现的均值和方差都是存在的。对于每个随机变量，样本均值是总体平均的良好估计函数，其中的良好是指有效及无偏差。当然样本均值不会是统计总体真实均值的正确值，因为从同一个分布中不同的取様会产生不同的样本均值，也就对真实均值有不同的估计。因此样本均值也是随机变量，不是常数，因此也会有其分布随机变量。针对第j个随机变量N次观测的随机取様，其样本均值分布的均值会等于总体均值 $E(X_{j})$ ，而其方差会等于 ${\frac {\sigma _{j}^{2}}{N}}$ ，其中 $\sigma _{j}^{2}$ 是随机变量X_j的方差。

评论[编辑]

样本均值广为使用在统计学及相关应用中，不过也有其缺点。样本均值不是稳健统计，容易受异常点（英语：outliers）影响。在真实世界的应用中，一般会期望数据有稳健的性质，有其他方式可以计算类似样本均值的统计量，但又比样本均值要稳健，可以得到一些常见的量化统计量，例如样本众数和位置参数（英语：Location parameter）有关^[2]。其他的替代品包括Winsorising（英语：Winsorising）及修整估计量（英语：Trimmed estimator），例如Winsorized平均（英语：Winsorized mean）及修整平均（英语：trimmed mean）。

参考资料[编辑]

^ Richard Arnold Johnson; Dean W. Wichern. Applied Multivariate Statistical Analysis. Pearson Prentice Hall. 2007 [10 August 2012]. ISBN 978-0-13-187715-3. （原始内容存档于2020-10-30）.
^ The World Question Center 2006: The Sample Mean （页面存档备份，存于互联网档案馆）, Bart Kosko

[JohnsonWichern2007-1] Richard Arnold Johnson; Dean W. Wichern. Applied Multivariate Statistical Analysis. Pearson Prentice Hall. 2007 [10 August 2012]. ISBN 978-0-13-187715-3. （原始内容存档于2020-10-30）.

[2] The World Question Center 2006: The Sample Mean （页面存档备份，存于互联网档案馆）, Bart Kosko

[1]

[2]