樣本均值

樣本均值是由一個或多個隨機變數中得到的統計量，樣本均值是一個向量，其中的每個元素都是針對隨機變數取様後得到的算術平均數。若只考慮一個隨機變量，則樣本均值為一個純量，是隨機變數觀測值的算術平均。

定義[編輯]

令 $x_{ij}$ 為第j個隨機變數（j=1,...,K）在第i次觀測（i=1,...,N）到的值，所有觀測值可以重組為N個K ×1的向量，其中第i次觀測的所有數據用 $\mathbf {x} _{i}$ 表示（i=1,...,N）。

算術平均向量 $\mathbf {\bar {x}}$ 的第j個元素 ${\bar {x}}_{j}$ 是第j個隨機變數在N次觀測值的平均值：

{\bar {x}}_{j}={\frac {1}{N}}\sum _{i=1}^{N}x_{ij},\quad j=1,\ldots ,K.

因此算術平均向量包括所有隨機變數的平均值，可以用以下方式表示：

\mathbf {\bar {x}} ={\frac {1}{N}}\sum _{i=1}^{N}\mathbf {x} _{i}.

樣本均值是隨機向量（英語：Multivariate random variable） $\textstyle \mathbf {X}$ 期望（若存在）的無偏估計（英語：Bias of an estimator），隨機向量是一個列向量，其中第j個元素(j = 1, ..., K)為第j個隨機變數^[1]。

樣本均值因為是用所有的觀測值計算而得，稍微和每次的觀測值有關。若母體平均 $\operatorname {E} (\mathbf {X} )$ 已知，其無偏估計值

q_{jk}={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{ij}-\operatorname {E} (X_{j})\right)\left(x_{ik}-\operatorname {E} (X_{k})\right),

用到母體平均，其分母為 $\textstyle N$ 。

樣本均值的方差[編輯]

本節中總假定出現的均值和方差都是存在的。對於每個隨機變數，樣本均值是母體平均的良好估計函數，其中的良好是指有效及無偏差。當然樣本均值不會是統計母體真實均值的正確值，因為從同一個分佈中不同的取様會產生不同的樣本均值，也就對真實均值有不同的估計。因此樣本均值也是隨機變數，不是常數，因此也會有其分佈隨機變數。針對第j個隨機變數N次觀測的隨機取様，其樣本均值分佈的均值會等於母體均值 $E(X_{j})$ ，而其變異數會等於 ${\frac {\sigma _{j}^{2}}{N}}$ ，其中 $\sigma _{j}^{2}$ 是隨機變數X_j的變異數。

評論[編輯]

樣本均值廣為使用在統計學及相關應用中，不過也有其缺點。樣本均值不是穩健統計，容易受異常點（英語：outliers）影響。在真實世界的應用中，一般會期望數據有穩健的性質，有其他方式可以計算類似樣本均值的統計量，但又比樣本均值要穩健，可以得到一些常見的量化統計量，例如樣本眾數和位置參數（英語：Location parameter）有關^[2]。其他的替代品包括Winsorising（英語：Winsorising）及修整估計量（英語：Trimmed estimator），例如Winsorized平均（英語：Winsorized mean）及修整平均（英語：trimmed mean）。

參考資料[編輯]

^ Richard Arnold Johnson; Dean W. Wichern. Applied Multivariate Statistical Analysis. Pearson Prentice Hall. 2007 [10 August 2012]. ISBN 978-0-13-187715-3. （原始內容存檔於2020-10-30）.
^ The World Question Center 2006: The Sample Mean （頁面存檔備份，存於網際網路檔案館）, Bart Kosko

[JohnsonWichern2007-1] Richard Arnold Johnson; Dean W. Wichern. Applied Multivariate Statistical Analysis. Pearson Prentice Hall. 2007 [10 August 2012]. ISBN 978-0-13-187715-3. （原始內容存檔於2020-10-30）.

[2] The World Question Center 2006: The Sample Mean （頁面存檔備份，存於網際網路檔案館）, Bart Kosko

[1]

[2]