二項分佈

維基百科,自由的百科全書
前往: 導覽搜尋
二項分布
參數 n \geq 0 試驗次數 (整數)
0\leq p \leq 1 成功機率 (實數)
支撐集 k \in \{0,\dots,n\}\!
機率質量函數 {n\choose k} p^k (1-p)^{n-k} \!
累積分佈函數 I_{1-p}(n-\lfloor k\rfloor, 1+\lfloor k\rfloor) \!
期望值 n\,p\!
中位數 \{\lfloor np\rfloor, \lceil np \rceil\}之一
眾數 \lfloor (n+1)\,p\rfloor\!\lfloor (n+1)\,p\rfloor\!-1
方差 n\,p\,(1-p)\!
偏度 \frac{1-2\,p}{\sqrt{n\,p\,(1-p)}}\!
峰度 \frac{1-6\,p\,(1-p)}{n\,p\,(1-p)}\!
信息熵 \frac{1}{2} \ln \left( 2 \pi n e p (1-p) \right) + O \left( \frac{1}{n} \right)\!
動差生成函數 (1-p + p\,e^t)^n \!
特性函數 (1-p + p\,e^{i\,t})^n \!

機率論統計學中,二項分布n獨立的是/非試驗中成功的次數的離散機率分布,其中每次試驗的成功機率p。這樣的單次成功/失敗試驗又稱為伯努利試驗。實際上,當n = 1時,二項分布就是伯努利分布。二項分布是顯著性差異二項試驗的基礎。

詳述[編輯]

機率質量函數[編輯]

一般地,如果隨機變數\mathit{X}服從參數為\mathit{n}\mathit{p}的二項分布,我們記X \sim b(n,p)X \sim B(n,p).n次試驗中正好得到k次成功的機率由機率質量函數給出:

 f(k;n,p) = \Pr(K = k) = {n\choose k}p^k(1-p)^{n-k}

對於k = 0, 1, 2, ..., n,其中{n\choose k}=\frac{n!}{k!(n-k)!}

二項式係數(這就是二項分布的名稱的由來),又記為C(nk),  nCk,或nCk。該公式可以用以下方法理解:我們希望有k次成功(pk)和n − k次失敗(1 − p)n − k。然而,k次成功可以在n次試驗的任何地方出現,而把k次成功分布在n次試驗中共有C(nk)個不同的方法。

在製造二項分布機率的參考表格時,通常表格中只填上n/2個值。這是因為k > n/2時的機率可以從它的補集計算出:

f(k;n,p)=f(n-k;n,1-p). \,

因此,我們要看另外一個k和另外一個p(二項分布一般不是對稱的)。然而,它的表現不是任意的。總存在一個整數M,滿足

(n+1)p-1 < M \leq (n+1)p. \,

作為k的函數,表達式ƒ(knp)當k < M時單調遞增,k > M時單調遞減,只有當(n + 1)p是整數時例外。在這時,有兩個值使ƒ達到最大:(n + 1)p和(n + 1)p − 1。M是伯努利試驗的最可能的結果,稱為眾數。注意它發生的機率可以很小。

累積分布函數[編輯]

累積分布函數可以表示為:

F(x;n,p) = \Pr(X \le x) = \sum_{i=0}^{\lfloor x \rfloor} {n\choose i}p^i(1-p)^{n-i}.

其中\scriptstyle \lfloor x\rfloor\,是小於或等於x最大整數

它也可以用正則化不完全貝塔函數來表示:


\begin{align}
F(k;n,p) & = \Pr(X \le k) = I_{1-p}(n-k, k+1) \\
& = (n-k) {n \choose k} \int_0^{1-p} t^{n-k-1} (1-t)^k \, dt.
\end{align}

期望和方差[編輯]

如果X ~ B(n, p)(也就是說,X是服從二項分布的隨機變數),那麼X期望值


    \operatorname{E}[X] = np

方差


    \operatorname{Var}[X] = np(1 - p).

這個事實很容易證明。首先假設有一個伯努利試驗。試驗有兩個可能的結果:1和0,前者發生的機率為p,後者的機率為1 − p。該試驗的期望值等於μ = 1 · p + 0 · (1−p) = p。該試驗的方差也可以類似地計算:σ2 = (1−p)2·p + (0−p)2·(1−p) = p(1 − p).

一般的二項分布是n次獨立的伯努利試驗的和。它的期望值和方差分別等於每次單獨試驗的期望值和方差的和:


    \mu_n = \sum_{k=1}^n \mu = np, \qquad
    \sigma^2_n = \sum_{k=1}^n \sigma^2 = np(1 - p).

眾數和中位數[編輯]

通常二項分布B(n, p)的眾數等於⌊(n + 1)p⌋,其中e ⌊ ⌋ 是取整函數。然而,當(n + 1)p是整數且p不等於0或1時,分布有兩個眾數:(n + 1)p和(n + 1)p − 1。當p等於0或1時,眾數相應地等於0或 n。這些情況可以綜述如下:


    \text{mode} = 
      \begin{cases}
        \lfloor (n+1)\,p\rfloor & \text{if }(n+1)p\text{ is 0 or a noninteger}, \\
        (n+1)\,p\ \text{ and }\ (n+1)\,p - 1 &\text{if }(n+1)p\in\{1,\dots,n\}, \\
        n & \text{if }(n+1)p = n + 1.
      \end{cases}

一般地,沒有一個單一的公式可以求出二項分布的中位數,甚至中位數可能是不唯一的。然而有幾個特殊的結果:

  • 如果np是整數,那麼平均數、中位數和眾數相等,都等於np[1][2]
  • 任何中位數m都位於區間⌊np⌋ ≤ m ≤ ⌈np⌉內。[3]
  • 中位數m不能離平均數太遠:|mnp| ≤ min{ ln 2, max{p, 1 − p} }。[4]
  • 如果p ≤ 1 − ln 2,或p ≥ ln 2,或|m − np| ≤ min{p, 1 − p}(除了p = ½、n是奇數的情況以外),那麼中位數是唯一的,且等於m = round(np)。[3][4]
  • 如果p = 1/2,且n是奇數,那麼區間½(n − 1) ≤ m ≤ ½(n + 1)中的任何數m都是二項分布的中位數。如果p = 1/2且n是偶數,那麼m = n/2是唯一的中位數。

兩個二項分布的協方差[編輯]

如果有兩個服從二項分布的隨機變數XY,我們可以求它們的協方差。利用協方差的定義,當n = 1時我們有

\operatorname{Cov}(X, Y) = \operatorname{E}(XY) - \mu_X \mu_Y.

第一項僅當XY都等於1時非零,而μXμY分別為X = 1和Y = 1的機率。定義pBXY都等於1的機率,便得到

\operatorname{Cov}(X, Y) = p_B - p_X p_Y, \,

對於n次獨立的試驗,我們便有

\operatorname{Cov}(X, Y)_n = n ( p_B - p_X p_Y ). \,

如果XY是相同的變數,便化為上面的方差公式。

與其他分布的關係[編輯]

二項分布的和[編輯]

如果X ~ B(np)和Y ~ B(mp),且XY相互獨立,那麼X + Y也服從二項分布;它的分布為

X+Y \sim B(n+m, p).\,

伯努利分布[編輯]

伯努利分布是二項分布在n = 1時的特殊情況。X ~ B(1, p)與X ~ Bern(p)的意思是相同的。相反,任何二項分布B(np)都是n次獨立伯努利試驗的和,每次試驗成功的機率為p

泊松二項分布[編輯]

二項分布是泊松二項分布的一個特殊情況。泊松二項分布n次獨立、不相同的伯努利試驗(pi)的和。如果X服從泊松二項分布,且p1 = … = pn =p,那麼X ~ B(np)。

正態近似[編輯]

n = 6、p = 0.5時的二項分布以及正態近似

如果n足夠大,那麼分布的偏度就比較小。在這種情況下,如果使用適當的連續性校正,那麼B(np)的一個很好的近似是常態分佈

 \mathcal{N}(np,\, np(1-p)).

n越大(至少20),近似越好,當p不接近0或1時更好。[5]不同的經驗法則可以用來決定n是否足夠大,以及p是否距離0或1足夠遠:

  • 一個規則是x=npn(1 − p)都必須大於 5。

泊松近似[編輯]

當試驗的次數趨於無窮大,而乘積np固定時,二項分布收斂於泊松分布。因此參數為λ = np的泊松分布可以作為二項分布B(n, p)的近似,如果n足夠大,而p足夠小。[6]

極限[編輯]

  • n趨於∞,p趨於0,而np固定於λ > 0,或至少np趨於λ > 0時,二項分布B(np)趨於期望值為λ的泊松分布
  • n趨於∞而p固定時,
{X-np \over \sqrt{np(1-p)\ }}
的分布趨於期望值為 0、方差為 1的常態分佈。這個結果是中心極限定理的一個特殊情況。

例子[編輯]

一個簡單的例子如下:擲一枚骰子十次,那麼擲得4的次數就服從n = 10、p = 1/6的二項分布。

參見[編輯]

參考文獻[編輯]

  1. ^ Neumann, P. Über den Median der Binomial- and Poissonverteilung. Wissenschaftliche Zeitschrift der Technischen Universität Dresden. 1966, 19: 29–33 (German). 
  2. ^ Lord, Nick. (July 2010). "Binomial averages when the mean is an integer", The Mathematical Gazette 94, 331-332.
  3. ^ 3.0 3.1 Kaas, R.; Buhrman, J.M. Mean, Median and Mode in Binomial Distributions. Statistica Neerlandica. 1980, 34 (1): 13–18. doi:10.1111/j.1467-9574.1980.tb00681.x. 
  4. ^ 4.0 4.1 Hamza, K. The smallest uniform upper bound on the distance between the mean and the median of the binomial and Poisson distributions. Statistics & Probability Letters. 1995, 23: 21–25. doi:10.1016/0167-7152(94)00090-U.  編輯
  5. ^ Box, Hunter and Hunter. Statistics for experimenters. Wiley. 1978. 130. 
  6. ^ NIST/SEMATECH, "6.3.3.1. Counts Control Charts", e-Handbook of Statistical Methods.