標準誤

維基百科,自由的百科全書
前往: 導覽搜尋
圖示為服從無偏性常態分佈的標準誤

標準誤英文Standard Error),也稱標準誤差,即樣本統計量的標準差英文Standard Deviation),是描述對應的樣本統計量抽樣分布的離散程度及衡量對應樣本統計量抽樣誤差大小的尺度[1]

概述[編輯]

標準誤差針對樣本統計量而言,是某個樣本統計量的標準差。當談及標準誤差時,一般須指明對應的樣本統計量才有意義。以下以樣本均值(樣本均值是一種樣本統計量)作為例子:

例如, 樣本均值總體均值無偏估計。但是,來自同一總量的不同樣本可能有不同的均值。

於是,假設可以從總體中隨機選取無限的大小相同的樣本,那每個樣本都可以有一個樣本均值。依此法可以到一個由無限多樣本均值組成的總體,該總體的標準差即為標準誤差。

在很多實際應用中,標準差的真正值通常是未知的。因此,標準誤這個術語通常運用於代表這一未知量的估計。在這些情況下,需要清楚業已完成的和嘗試去解決的標準誤差僅僅可能是一個估量。然而,這通行上不太可能:人們可能往往採取更好的估量方法,而避免使用標準誤,例如採用最大似然或更形式化的方法去測定置信區間。第一個眾所周知的方法是在適當條件下可以採用學生t-分布為一個估量平均值提供置信區間。在其他情況下,標準差可以有效地利用於提供一個不確定性空間的示值,但其正式或半正式使用是提供置信區間或測試,並要求樣本總量必須足夠大。其總量大小取決於具體的數量分析[2]

均值標準誤差[編輯]

均值標準誤差(standard error of the mean, SEM),也稱平均數標準誤差標準誤差平均值,是樣本均值的標準誤差。均值標準誤差等於樣本標準差除以樣本數量的平方根。

SE_\bar{x}\ = \frac{s}{\sqrt{n}}

其中,S為樣本的標準差,n為樣本數量(大小)。

這一估計可以用來比較統計總量(母體)的平均數標準差:

SD_\bar{x}\ = \frac{\sigma}{\sqrt{n}}

其中,σ是總量的標準差。

注意:

  1. 標準誤差也可定義為殘差標準差[3][4]
  2. 無論是標準誤差還是小型樣本的標準差,都往往低估了母體的標準誤差和標準差:平均數的標準誤差是總量標準誤差的一個有偏估計量。當樣本總量 n = 2時,低估率大概為25% ;但 n=6 時,低估率只有5%。基於此,古爾蘭(Gurland)和特里帕蒂(Tripathi)對此公式作了改進努力[5]

假設與運用[編輯]

如果數據集服從常態分佈,其常態分佈函數的分位數樣本平均數標準差都可以用來計算合適的平均數置信區間。

以下公式表示在大於或小於95%的置信區間中,\bar{x} 等於樣本平均數時,S 等於樣本平均數的標準差,1.96 則為服從常態分佈的第 0.975百分位數值。

大於 95% 置信區間 = \bar{x} + (S ×1.96) ,
小於 95% 置信區間 = \bar{x} - (S ×1.96) .

特殊情況下,樣本統計(比如樣本平均數)的標準誤是一個有偏誤的估計標準。換句話說,標準誤是一個樣本統計的樣本分布的標準差。這一標準誤的符號可以是任何SESEMS_E之一。

標準誤提供一系列在證明數值不確定性的簡單方法,並通常用於:

  • 如果一些個體數量的標準誤是已知的,那麼在一些情況下,一些方程的百分位數的標準誤可以被容易運算出來;
  • 當機率分布的數值已知,標準誤可以用來推算精確的置信區間,並且;
  • 當機率分布的數值未知,其他切比雪夫不等式等可以用來推算一個保守的置信區間。
  • 只要樣本總量傾向於無窮大,中心極限定理可以保證其樣本分布漸進地傾向於常態分佈

有限總體校正[編輯]

鑒於對上述標準誤差的公式,假設樣本量遠小於總量規模,所以總量可以被視為足夠大。當取樣比例較大(大約為5%或以上)時,對標準誤的估計必須用「有限總體校正」(finite population correction[6]


    \text{FPC} = \sqrt{\frac{N-n}{N-1}}

該公式以考慮到增加所獲得的採樣精度,以接近的人口較大比例。有限總體校正的意義在於:如果樣本大小 n 等於總量大小 N 時,有限總體校正數值為零。

樣本相關性校正[編輯]

一個樣本中的預期誤差與樣本誤差係數關係,其無誤差的標準誤,即 ρ=0,函數為圖中紅色直線,係數為-½

如果實測量 A 的數值不具有統計意義上的獨立性,但是其仍然可以從已知的參數空間 x 中獲取。那麼一個誤差的無偏估計可以通過以下方程獲得:

  \text{f}= \sqrt{\frac{1+(n-1) \rho}{1-\rho}}

其中,樣本偏差係數 ρ 為自相關係數 ρij (-1到1之間的數量)的平均值。

相對標準誤差[編輯]

相對標準誤差Relative Standard Error)僅僅是標準誤除以平均值的一種百分比表述。例如,製作兩份家庭收入調查,其平均值為50000美元。如果一個調查的標準誤有10000美元,而另一個則為5000美元,其相對標準誤差分別為20%和10%。直觀地說,擁有較低標準誤差的調查看起來更為可靠。事實上,由於製作數據機構通常預設可信度標準,以使得其統計數據必須滿足此前公布的內容。譬如,美國國家衛生統計中心通常不會報告其數據相對標準誤差超過30%的估計。

相關條目[編輯]

參考文獻[編輯]

  1. ^ Everitt, B.S. (2003) The Cambridge Dictionary of Statistics, CUP. ISBN 0-521-81099-X
  2. ^ Isserlis, L. On the value of a mean as calculated from a sample. Journal of the Royal Statistical Society. 1918, 81 (1): 75–81. 
  3. ^ Kenney, J. and Keeping, E.S. (1963) Mathematics of Statistics, van Nostrand, p. 187
  4. ^ Zwillinger D. (1995), Standard Mathematical Tables and Formulae, Chapman&Hall/CRC. ISBN 0-8493-2479-3 p. 626
  5. ^ Gurland, J; Tripathi RC. A simple approximation for unbiased estimation of the standard deviation. American Statistician. 1971, 25 (4): 30–32. 
  6. ^ Isserlis (1981, equation (1))