二項分布
機率質量函數
累積分布函數
記號
B (n , p ) 參數
n
≥
0
{\displaystyle n\geq 0}
試驗次數 (整數 )
0
≤
p
≤
1
{\displaystyle 0\leq p\leq 1}
成功概率 (實數 ) 值域
k
∈
{
0
,
…
,
n
}
{\displaystyle k\in \{0,\dots ,n\}\!}
機率質量函數
(
n
k
)
p
k
(
1
−
p
)
n
−
k
{\displaystyle {n \choose k}p^{k}(1-p)^{n-k}\!}
累積分布函數
I
1
−
p
(
n
−
⌊
k
⌋
,
1
+
⌊
k
⌋
)
{\displaystyle I_{1-p}(n-\lfloor k\rfloor ,1+\lfloor k\rfloor )\!}
期望值
n
p
{\displaystyle n\,p\!}
中位數
{
⌊
n
p
⌋
,
⌈
(
n
+
1
)
p
⌉
}
{\displaystyle \{\lfloor np\rfloor ,\lceil (n+1)p\rceil \}}
之一 眾數
⌊
(
n
+
1
)
p
⌋
{\displaystyle \lfloor (n+1)\,p\rfloor \!}
或
⌊
(
n
+
1
)
p
⌋
−
1
{\displaystyle \lfloor (n+1)\,p\rfloor \!-1}
變異數
n
p
(
1
−
p
)
{\displaystyle n\,p\,(1-p)\!}
偏度
1
−
2
p
n
p
(
1
−
p
)
{\displaystyle {\frac {1-2\,p}{\sqrt {n\,p\,(1-p)}}}\!}
峰度
1
−
6
p
(
1
−
p
)
n
p
(
1
−
p
)
{\displaystyle {\frac {1-6\,p\,(1-p)}{n\,p\,(1-p)}}\!}
熵
1
2
ln
(
2
π
n
e
p
(
1
−
p
)
)
+
O
(
1
n
)
{\displaystyle {\frac {1}{2}}\ln \left(2\pi nep(1-p)\right)+O\left({\frac {1}{n}}\right)\!}
動差母函數
(
1
−
p
+
p
e
t
)
n
{\displaystyle (1-p+p\,e^{t})^{n}\!}
特徵函數
(
1
−
p
+
p
e
i
t
)
n
{\displaystyle (1-p+p\,e^{i\,t})^{n}\!}
在概率論 和統計學 中,二項分布 (英語:Binomial distribution )是
n
{\displaystyle n}
個獨立 的是/非試驗中成功的次數的離散概率分布 ,其中每次試驗的成功概率 為
p
{\displaystyle p}
。這樣的單次成功/失敗試驗又稱為伯努利試驗 。實際上,當
n
=
1
{\displaystyle n=1}
時,二項分布就是伯努利分布 。二項分布是顯著性差異 的二項試驗 的基礎。
概率質量函數 [ 編輯 ]
一般來說,若隨機變量
X
{\displaystyle {\mathit {X}}}
服從參數為
n
{\displaystyle {\mathit {n}}}
和
p
{\displaystyle {\mathit {p}}}
的二項分布,我們記作
X
∼
b
(
n
,
p
)
{\displaystyle X\sim b(n,p)}
或
X
∼
B
(
n
,
p
)
{\displaystyle X\sim B(n,p)}
。n次試驗中正好得到k 次成功的概率由概率質量函數 給出:
f
(
k
,
n
,
p
)
=
Pr
(
X
=
k
)
=
(
n
k
)
p
k
(
1
−
p
)
n
−
k
{\displaystyle f(k,n,p)=\Pr(X=k)={n \choose k}p^{k}(1-p)^{n-k}}
對於
k
=
0
,
1
,
2
,
⋯
,
n
{\displaystyle k=0,1,2,\cdots ,n}
,其中
(
n
k
)
=
n
!
k
!
(
n
−
k
)
!
{\displaystyle {n \choose k}={\frac {n!}{k!(n-k)!}}}
是二項式係數 (這就是二項分布的名稱的由來),又記為
C
(
n
,
k
)
{\displaystyle C(n,k)}
,
n
C
k
{\displaystyle _{n}C_{k}}
,或
n
C
k
{\displaystyle ^{n}C_{k}}
。該公式可以用以下方法理解:我們希望有
k
{\displaystyle k}
次成功(機率為
p
k
{\displaystyle p^{k}}
)和
n
−
k
{\displaystyle n-k}
次失敗(機率為
(
1
−
p
)
n
−
k
{\displaystyle (1-p)^{n-k}}
)。然而,
k
{\displaystyle k}
次成功可以在
n
{\displaystyle {\mathit {n}}}
次試驗的任何地方出現,而把
k
{\displaystyle k}
次成功分布在
n
{\displaystyle {\mathit {n}}}
次試驗中共有
C
(
n
,
k
)
{\displaystyle C(n,k)}
個不同的方法。
在製造二項分布概率的參考表格時,通常表格中只填上
n
2
{\displaystyle {\frac {n}{2}}}
個值。這是因為
k
>
n
2
{\displaystyle k>{\frac {n}{2}}}
時的概率可以從它的補集計算出:
f
(
k
;
n
,
p
)
=
f
(
n
−
k
;
n
,
1
−
p
)
{\displaystyle f(k;n,p)=f(n-k;n,1-p)\,}
因此,我們要看另外一個
k
{\displaystyle k}
和另外一個
p
{\displaystyle p}
(二項分布一般不是對稱的)。然而,它的表現不是任意的。總存在一個整數
M
{\displaystyle M}
,滿足:
(
n
+
1
)
p
−
1
<
M
≤
(
n
+
1
)
p
{\displaystyle (n+1)p-1<M\leq (n+1)p\,}
作為
k
{\displaystyle k}
的函數,表達式
f
(
k
;
n
,
p
)
{\displaystyle f(k;n,p)}
當
k
<
M
{\displaystyle k<M}
時單調遞增,
k
>
M
{\displaystyle k>M}
時單調遞減,只有當
(
n
+
1
)
p
{\displaystyle (n+1)p}
是整數時例外。在這時,有兩個值使
f
{\displaystyle f}
達到最大:
(
n
+
1
)
p
{\displaystyle (n+1)p}
和
(
n
+
1
)
p
−
1
{\displaystyle (n+1)p-1}
。
M
{\displaystyle M}
是伯努利試驗的最可能的結果,稱為眾數 。注意它發生的概率可以很小。
累積分布函數(概率分布函數) [ 編輯 ]
累積分布函數 可以表示為:
F
(
x
;
n
,
p
)
=
Pr
(
X
≤
x
)
=
∑
i
=
0
⌊
x
⌋
(
n
i
)
p
i
(
1
−
p
)
n
−
i
{\displaystyle F(x;n,p)=\Pr(X\leq x)=\sum _{i=0}^{\lfloor x\rfloor }{n \choose i}p^{i}(1-p)^{n-i}}
其中
⌊
x
⌋
{\displaystyle \lfloor x\rfloor \,}
是小於或等於
x
{\displaystyle x}
的最大整數 。
它也可以用正則化不完全貝塔函數 來表示:
F
(
k
;
n
,
p
)
=
Pr
(
X
≤
k
)
=
I
1
−
p
(
n
−
k
,
k
+
1
)
=
(
n
−
k
)
(
n
k
)
∫
0
1
−
p
t
n
−
k
−
1
(
1
−
t
)
k
d
t
{\displaystyle {\begin{aligned}F(k;n,p)&=\Pr(X\leq k)=I_{1-p}(n-k,k+1)\\&=(n-k){n \choose k}\int _{0}^{1-p}t^{n-k-1}(1-t)^{k}\,dt\end{aligned}}}
期望和方差 [ 編輯 ]
如果
X
∼
B
(
n
,
p
)
{\displaystyle X\sim B(n,p)}
(也就是說,
X
{\displaystyle X}
是服從二項分布的隨機變量),那麼
X
{\displaystyle X}
的期望值 為
E
[
X
]
=
n
p
{\displaystyle \operatorname {E} [X]=np}
方差 為
Var
[
X
]
=
n
p
(
1
−
p
)
.
{\displaystyle \operatorname {Var} [X]=np(1-p).}
這個事實很容易證明。首先假設有一個伯努利試驗。試驗有兩個可能的結果:1和0,前者發生的概率為
p
{\displaystyle p}
,後者的概率為
1
−
p
{\displaystyle 1-p}
。該試驗的期望值等於
μ
=
1
⋅
p
+
0
⋅
(
1
−
p
)
=
p
{\displaystyle \mu =1\cdot p+0\cdot (1-p)=p}
。該試驗的方差也可以類似地計算:
σ
2
=
(
1
−
p
)
2
⋅
p
+
(
0
−
p
)
2
⋅
(
1
−
p
)
=
p
(
1
−
p
)
{\displaystyle \sigma ^{2}=(1-p)^{2}\cdot p+(0-p)^{2}\cdot (1-p)=p(1-p)}
.
一般的二項分布是
n
{\displaystyle n}
次獨立的伯努利試驗的和。它的期望值和方差分別等於每次單獨試驗的期望值和方差的和:[1]
μ
n
=
∑
k
=
1
n
μ
=
n
p
,
σ
n
2
=
∑
k
=
1
n
σ
2
=
n
p
(
1
−
p
)
.
{\displaystyle \mu _{n}=\sum _{k=1}^{n}\mu =np,\qquad \sigma _{n}^{2}=\sum _{k=1}^{n}\sigma ^{2}=np(1-p).}
眾數和中位數 [ 編輯 ]
通常二項分布
B
(
n
,
p
)
{\displaystyle B(n,p)}
的眾數 等於
⌊
(
n
+
1
)
p
⌋
{\displaystyle \lfloor (n+1)p\rfloor }
,其中
⌊
⋅
⌋
{\displaystyle \lfloor \cdot \rfloor }
是取整函數 。然而,當
(
n
+
1
)
p
{\displaystyle (n+1)p}
是整數且
p
{\displaystyle p}
不等於0或1時,分布有兩個眾數:
(
n
+
1
)
p
{\displaystyle (n+1)p}
和
(
n
+
1
)
p
−
1
{\displaystyle (n+1)p-1}
。當
p
{\displaystyle p}
等於0或1時,眾數相應地等於0或
n
{\displaystyle n}
。這些情況可以綜述如下:
mode
=
{
⌊
(
n
+
1
)
p
⌋
若
(
n
+
1
)
p
是 0 或 非 整 数
,
(
n
+
1
)
p
和
(
n
+
1
)
p
−
1
若
(
n
+
1
)
p
∈
{
1
,
…
,
n
}
,
n
若
(
n
+
1
)
p
=
n
+
1.
{\displaystyle {\text{mode}}={\begin{cases}\lfloor (n+1)\,p\rfloor &{\text{若 }}(n+1)p{\text{ 是 0 或 非 整 数 }},\\(n+1)\,p\ {\text{ 和 }}\ (n+1)\,p-1&{\text{若 }}(n+1)p\in \{1,\dots ,n\},\\n&{\text{若 }}(n+1)p=n+1.\end{cases}}}
一般地,沒有一個單一的公式可以求出二項分布的中位數 ,甚至中位數可能是不唯一的。然而有幾個特殊的結果:
如果
n
p
{\displaystyle np}
是整數,那麼平均數、中位數和眾數相等,都等於
n
p
{\displaystyle np}
。[2] [3]
任何中位數
m
{\displaystyle m}
都位於區間
⌊
n
p
⌋
≤
m
≤
⌈
n
p
⌉
{\displaystyle \lfloor np\rfloor \leq m\leq \lceil np\rceil }
內。[4]
中位數
m
{\displaystyle m}
不能離平均數太遠:
|
m
−
n
p
|
≤
min
{
ln
2
,
max
{
p
,
1
−
p
}
}
{\displaystyle \left\vert m-np\right\vert \leq \min\{\ln 2,\ \max\{p,1-p\}\}}
。[5]
如果
p
≤
1
−
ln
2
{\displaystyle p\leq 1-\ln 2}
,或
p
≥
ln
2
{\displaystyle p\geq \ln 2}
,或
|
m
−
n
p
|
≤
min
{
p
,
1
−
p
}
{\displaystyle \left\vert m-np\right\vert \leq \min\{p,1-p\}}
(除了
p
=
1
2
{\displaystyle p={\frac {1}{2}}}
、
n
{\displaystyle n}
是奇數的情況以外),那麼中位數是唯一的,且等於
m
=
r
o
u
n
d
(
n
p
)
{\displaystyle m=\mathrm {round} (np)}
。[4] [5]
如果
p
=
1
2
{\displaystyle p={\frac {1}{2}}}
,且
n
{\displaystyle n}
是奇數,那麼區間
1
2
(
n
−
1
)
≤
m
≤
1
2
(
n
+
1
)
{\displaystyle {\frac {1}{2}}(n-1)\leq m\leq {\frac {1}{2}}(n+1)}
中的任何數
m
{\displaystyle m}
都是二項分布的中位數。如果
p
=
1
2
{\displaystyle p={\frac {1}{2}}}
且
n
{\displaystyle n}
是偶數,那麼
m
=
n
2
{\displaystyle m={\frac {n}{2}}}
是唯一的中位數。
兩個二項分布的協方差 [ 編輯 ]
如果有兩個服從二項分布的隨機變量
X
{\displaystyle X}
和
Y
{\displaystyle Y}
,我們可以求它們的協方差。利用協方差 的定義,當
n
=
1
{\displaystyle n=1}
時我們有
Cov
(
X
,
Y
)
=
E
(
X
Y
)
−
μ
X
μ
Y
.
{\displaystyle \operatorname {Cov} (X,Y)=\operatorname {E} (XY)-\mu _{X}\mu _{Y}.}
第一項僅當
X
{\displaystyle X}
和
Y
{\displaystyle Y}
都等於1時非零,而
μ
x
{\displaystyle \mu _{x}}
和
μ
y
{\displaystyle \mu _{y}}
分別為
X
=
1
{\displaystyle X=1}
和
Y
=
1
{\displaystyle Y=1}
的概率。定義
p
B
{\displaystyle p_{B}}
為
X
{\displaystyle X}
和
Y
{\displaystyle Y}
都等於1的概率,便得到
Cov
(
X
,
Y
)
=
p
B
−
p
X
p
Y
,
{\displaystyle \operatorname {Cov} (X,Y)=p_{B}-p_{X}p_{Y},\,}
對於n 次獨立的試驗,我們便有
Cov
(
X
,
Y
)
n
=
n
(
p
B
−
p
X
p
Y
)
.
{\displaystyle \operatorname {Cov} (X,Y)_{n}=n(p_{B}-p_{X}p_{Y}).\,}
如果
X
{\displaystyle X}
和
Y
{\displaystyle Y}
是相同的變量,便化為上面的方差公式。
與其他分布的關係 [ 編輯 ]
二項分布的和 [ 編輯 ]
如果
X
∼
B
(
n
,
p
)
{\displaystyle X\sim B(n,p)}
和
Y
∼
B
(
m
,
p
)
{\displaystyle Y\sim B(m,p)}
,且
X
{\displaystyle X}
和
Y
{\displaystyle Y}
相互獨立,那麼
X
+
Y
{\displaystyle X+Y}
也服從二項分布;它的分布為
X
+
Y
∼
B
(
n
+
m
,
p
)
.
{\displaystyle X+Y\sim B(n+m,p).\,}
伯努利分布 [ 編輯 ]
伯努利分布 是二項分布在
n
=
1
{\displaystyle n=1}
時的特殊情況。
X
∼
B
(
1
,
p
)
{\displaystyle X\sim B(1,p)}
與
X
∼
B
e
r
n
(
p
)
{\displaystyle X\thicksim \mathrm {Bern} (p)}
的意思是相同的。相反,任何二項分布
B
(
n
,
p
)
{\displaystyle B(n,p)}
都是
n
{\displaystyle n}
次獨立伯努利試驗 的和,每次試驗成功的概率為
p
{\displaystyle p}
。
泊松二項分布 [ 編輯 ]
二項分布是泊松二項分布 的一個特殊情況。泊松二項分布 是
n
{\displaystyle n}
次獨立、不相同的伯努利試驗 (
p
i
{\displaystyle p_{i}}
)的和。如果
X
{\displaystyle X}
服從泊松二項分布,且
p
1
=
⋯
=
p
n
=
p
{\displaystyle p_{1}=\cdots =p_{n}=p}
,那麼
X
∼
B
(
n
,
p
)
{\displaystyle X\sim B(n,p)}
。
正態近似 [ 編輯 ]
n
=
6
{\displaystyle n=6}
、
p
=
0.5
{\displaystyle p=0.5}
時的二項分布 以及正態近似
如果
n
{\displaystyle n}
足夠大,那麼分布的偏度就比較小。在這種情況下,如果使用適當的連續性校正 ,那麼
B
(
n
,
p
)
{\displaystyle B(n,p)}
的一個很好的近似是正態分布 :
N
(
n
p
,
n
p
(
1
−
p
)
)
{\displaystyle {\mathcal {N}}(np,\,np(1-p))}
V
a
r
(
x
)
=
n
p
(
1
−
p
)
{\displaystyle {\mathcal {Var}}(x)=np(1-p)}
n
{\displaystyle n}
越大(至少30),近似越好,當
p
{\displaystyle p}
不接近0或1時更好。[6] 不同的經驗法則 可以用來決定
n
{\displaystyle n}
是否足夠大,以及
p
{\displaystyle p}
是否距離0或1足夠遠:
一個規則是
n
p
{\displaystyle np}
和
n
(
1
−
p
)
{\displaystyle n(1-p)}
都必須大於5。
泊松近似 [ 編輯 ]
當試驗的次數趨於無窮大,而乘積
n
p
{\displaystyle np}
固定時,二項分布收斂於泊松分布 。因此參數為
λ
=
n
p
{\displaystyle \lambda =np}
的泊松分布可以作為二項分布
B
(
n
,
p
)
{\displaystyle B(n,p)}
的近似,如果
n
{\displaystyle n}
足夠大,而
p
{\displaystyle p}
足夠小。[7]
當
n
{\displaystyle n}
趨於
∞
{\displaystyle \infty }
,
p
{\displaystyle p}
趨於0,而
n
p
{\displaystyle np}
固定於
λ
>
0
{\displaystyle \lambda >0}
,或至少
n
p
{\displaystyle np}
趨於
λ
>
0
{\displaystyle \lambda >0}
時,二項分布
B
(
n
,
p
)
{\displaystyle B(n,p)}
趨於期望值 為λ的泊松分布 。
當
n
{\displaystyle n}
趨於
∞
{\displaystyle \infty }
而
p
{\displaystyle p}
固定時,
X
−
n
p
n
p
(
1
−
p
)
{\displaystyle {X-np \over {\sqrt {np(1-p)\ }}}}
的分布趨於期望值為 0、方差 為 1的正態分布 。這個結果是中心極限定理 的一個特殊情況。
一個簡單的例子如下:擲一枚骰子 十次,那麼擲得4的次數就服從
n
=
10
{\displaystyle n=10}
、
p
=
1
6
{\displaystyle p={\frac {1}{6}}}
的二項分布。
參考文獻 [ 編輯 ]
^ 第6章 數學附錄 (PDF) . [2023-11-07 ] . (原始內容存檔 (PDF) 於2023-11-07).
^ Neumann, P. Über den Median der Binomial- and Poissonverteilung. Wissenschaftliche Zeitschrift der Technischen Universität Dresden. 1966, 19 : 29–33 (德語) .
^ Lord, Nick. (July 2010). "Binomial averages when the mean is an integer", The Mathematical Gazette 94, 331-332.
^ 4.0 4.1 Kaas, R.; Buhrman, J.M. Mean, Median and Mode in Binomial Distributions. Statistica Neerlandica. 1980, 34 (1): 13–18. doi:10.1111/j.1467-9574.1980.tb00681.x .
^ 5.0 5.1 Kais Hamza. The smallest uniform upper bound on the distance between the mean and the median of the binomial and Poisson distributions . Statistics & Probability Letters: 21–25. [2018-04-02 ] . doi:10.1016/0167-7152(94)00090-u . (原始內容存檔 於2020-12-15). (頁面存檔備份 ,存於網際網路檔案館 )
^ Box, Hunter and Hunter. Statistics for experimenters . Wiley. 1978: 130 .
^ NIST /SEMATECH , "6.3.3.1. Counts Control Charts" (頁面存檔備份 ,存於網際網路檔案館 ), e-Handbook of Statistical Methods.