样本均值

维基百科,自由的百科全书
跳转至: 导航搜索

样本均值是由一個或多個隨機變數中得到的統計資料,样本均值是一個向量,其中的每個元素都是針對隨機變數取様後得到的幾何平均數,若只考慮一個隨機變數,則样本均值為一個純量,是隨機變數觀測值的幾何平均。

定義[编辑]

x_{ij}為第j個隨機變數(j=1,...,K)在第i次觀測(i=1,...,N)到的值,所有觀測值可以重組為N個K ×1的向量,其中第i次觀測的所有數據用\mathbf{x}_i表示(i=1,...,N)。

幾何平均向量\mathbf{\bar{x}}的第j個元素\bar{x}_{j}是第j個隨機變數在N次觀測值的平均值:

 \bar{x}_{j}=\frac{1}{N}\sum_{i=1}^{N}x_{ij},\quad j=1,\ldots,K.

因此幾何平均向量包括所有隨機變數的平均值,可以用以下方式表示:

 \mathbf{\bar{x}}=\frac{1}{N}\sum_{i=1}^{N}\mathbf{x}_i.

样本均值是隨機向量英语Multivariate random variable\textstyle \mathbf{X}平均數無偏估計英语Bias of an estimator,隨機向量是一個列向量,其中第j個元素(j = 1, ..., K)為第j個隨機變數[1]

样本均值因為是用所有的觀測值計算而得,稍微和每次的觀測值有關。若母体平均\operatorname{E}(\mathbf{X})已知,其無偏估計值

 q_{jk}=\frac{1}{N}\sum_{i=1}^N \left(  x_{ij}-\operatorname{E}(X_j)\right)  \left( x_{ik}-\operatorname{E}(X_k)\right),

用到母体平均,其分母為\textstyle N

样本均值的變異[编辑]

對於每個隨機變數,样本均值是母体平均的良好估计函数,其中的良好是指有效及無偏差。當然样本均值不會是統計母體真實均值的正確值,因為從同一個分佈中不同的取様會產生不同的样本均值,也就對真實均值有不同的估计。因此样本均值也是隨機變數,不是常數,因此也會有其分佈隨機變數。針對第j個隨機變數N次觀測的隨機取様,其样本均值分佈的均值會等於母體均值E(X_j),而其變異數會等於 \frac{\sigma^2_j}{N},其中\sigma^2_j是隨機變數Xj的變異數。

評論[编辑]

样本均值廣為使用在統計學及相關應用中,不過也有其缺點。样本均值不是稳健统计英语robust statistics,容易受異常點英语outliers影響。在真實世界的應用中,一般會期望數據有稳健的性質,有其他方式可以計算類似样本均值的統計量,但又比样本均值要稳健,可以得到一些常見的量化統計量,例如様本眾數位置參數英语Location parameter有關[2]。其他的替代品包括Winsorising英语Winsorising修整估计量英语Trimmed estimator,例如Winsorized平均英语Winsorized mean修整平均英语trimmed mean

參考資料[编辑]

  1. ^ Richard Arnold Johnson; Dean W. Wichern. Applied Multivariate Statistical Analysis. Pearson Prentice Hall. 2007 [10 August 2012]. ISBN 978-0-13-187715-3. 
  2. ^ The World Question Center 2006: The Sample Mean, Bart Kosko