在概率论 和统计学 中,二项分布 (英語:binomial distribution )是一种离散 概率分布 ,描述在进行独立 随机试验 时,每次试验都有相同概率 “成功”的情况下,获得成功的总次数。掷硬币 十次出现五次正面的概率、产品合格率
99
%
{\displaystyle \,99\%\,}
时抽出一百件样本没有发现一件次品的概率等等,都可以由二项分布给出。
只有“成功”和“失败”两种可能结果 ,每次重复时成功概率不变的独立随机试验称作伯努利试验 ,例如上述的掷硬币出现正面或反面、对产品进行抽样检查时抽到正品或次品。伯努利试验作为理论模型,其前提在现实中无法完全得到满足,比如生产线会磨损,因此每件产品合格的概率并非固定。尽管如此,二项分布给出的概率通常足以用于提供有用的推断;即使在已知前提没有满足的场合,二项分布也能用于参考和比较。二项分布的应用出现在遗传学 、质量控制 等领域之中。
若随机变量
X
{\displaystyle \,X\,}
有概率质量函数
Pr
(
X
=
k
)
=
(
n
k
)
p
k
(
1
−
p
)
n
−
k
(
k
=
0
,
1
,
…
,
n
)
,
{\displaystyle \Pr(X=k)={n \choose k}p^{k}(1-p)^{n-k}\quad (k=0,1,\ldots ,n),}
其中
n
{\displaystyle \,n\,}
为正整数 、
0
≤
p
≤
1
{\displaystyle \,0\leq p\leq 1\,}
,则称
X
{\displaystyle \,X\,}
服从参数 为
n
,
p
{\displaystyle \,n,p\,}
的二项分布,记为
X
∼
B
(
n
,
p
)
{\displaystyle \,X\sim \operatorname {B} (n,p)\,}
或
X
∼
Bin
(
n
,
p
)
{\displaystyle \,X\sim \operatorname {Bin} (n,p)\,}
。习惯上
1
−
p
{\displaystyle \,1-p\,}
也用
q
{\displaystyle \,q\,}
表示。
进行
n
{\displaystyle \,n\,}
次独立 伯努利试验 的结果可以由
n
{\displaystyle \,n\,}
个字母表示,例如用
S
{\displaystyle \,S\,}
表示成功,
F
{\displaystyle \,F\,}
表示失败,则
S
S
F
S
F
{\displaystyle SSFSF}
表示五次试验中第一、二、四次的结果为成功,其余为失败。设每次试验成功的概率为
p
{\displaystyle \,p\,}
,失败的概率为
1
−
p
{\displaystyle \,1-p\,}
。因为试验相互独立,每一种排列
k
{\displaystyle \,k\,}
个
S
{\displaystyle \,S\,}
、
n
−
k
{\displaystyle \,n-k\,}
个
F
{\displaystyle \,F\,}
的方式对应的概率为
p
k
(
1
−
p
)
n
−
k
{\displaystyle \,p^{k}(1-p)^{n-k}\,}
。
从
n
{\displaystyle \,n\,}
个不同元素 中选出含
k
{\displaystyle \,k\,}
个元素的子集 的方法数量等于二项式系数
(
n
k
)
=
n
!
k
!
(
n
−
k
)
!
.
{\displaystyle {n \choose k}={\frac {n!}{k!(n-k)!}}.}
而每种对
k
{\displaystyle \,k\,}
个
S
{\displaystyle \,S\,}
、
n
−
k
{\displaystyle \,n-k\,}
个
F
{\displaystyle \,F\,}
的排列都可理解为从
n
{\displaystyle \,n\,}
个位置中选出
k
{\displaystyle \,k\,}
个作为字母
S
{\displaystyle \,S\,}
的位置的方法,这种方法的数量即为
(
n
k
)
{\displaystyle \,{n \choose k}\,}
。与每种排列方式对应的概率相乘,便得到定义中的概率
(
n
k
)
p
k
(
1
−
p
)
n
−
k
.
{\displaystyle {n \choose k}p^{k}(1-p)^{n-k}.}
二项分布是最早得到研究的概率分布之一。丹麦统计学家安德斯·哈爾德 认为其历史可以追溯至布莱兹·帕斯卡 与皮埃尔·德·费马 于1654年对点数分配问题 的讨论:两名玩家赢得每局游戏的机会相同,赢得一定局数的胜者可获得奖金,但比赛仅进行了数局,尚未分出胜负就被迫中断,则奖金该如何分配?帕斯卡认为,奖金的分配应当基于玩家距离胜利所差的局数:若一名玩家还需
r
{\displaystyle \,r\,}
局获胜,另一名玩家还需
s
{\displaystyle \,s\,}
局获胜,则应考虑在
r
+
s
−
1
{\displaystyle \,r+s-1\,}
局比赛的
2
r
+
s
−
1
{\displaystyle \,2^{r+s-1}\,}
种结果中,两名玩家分别在多少种情况中获胜。两人的讨论限于这一问题本身,并未推导出二项分布的概率,但这一解法可被视作基于参数
p
=
1
/
2
{\displaystyle \,p=1/2\,}
的二项分布。
对二项分布概率的推导为雅各布·伯努利 于《猜度术 》中作出。该著作在他去世后,于1713年得到出版,被视作概率论 的奠基性作品。伯努利还在其中首次给出了弱大数定律 的严格证明。对二项分布的正态 近似则是由亞伯拉罕·棣莫弗 发现,这一工作于1733年完成,于1738年出版在其著作《机遇论 》的第二版中。
参数为
n
,
p
{\displaystyle \,n,p\,}
的二项分布的期望值 为
n
p
{\displaystyle \,np\,}
,方差 为
n
p
(
1
−
p
)
{\displaystyle \,np(1-p)\,}
。其概率母函数 为
G
(
z
)
=
(
1
−
p
+
p
z
)
n
,
{\displaystyle G(z)=(1-p+pz)^{n},}
矩母函数 为
M
X
(
t
)
=
(
1
−
p
+
p
e
t
)
n
,
{\displaystyle M_{X}(t)=(1-p+pe^{t})^{n},}
特征函数 为
φ
X
(
t
)
=
(
1
−
p
+
p
e
i
t
)
n
.
{\displaystyle \varphi _{X}(t)=(1-p+pe^{it})^{n}.}
参数
n
=
1
{\displaystyle \,n=1\,}
的二项分布称作伯努利分布 。多项分布 是二项分布的拓展,描述重复进行不限于两种结果、可能有多种可能结果的随机试验时的概率。二项分布本身是超几何分布 的极限形式。
若
X
1
,
X
2
{\displaystyle \,X_{1},X_{2}\,}
两个随机变量独立,分别服从参数为
n
1
,
p
{\displaystyle \,n_{1},p\,}
和
n
2
,
p
{\displaystyle \,n_{2},p\,}
的二项分布,则
X
1
+
X
2
{\displaystyle \,X_{1}+X_{2}\,}
即是在
n
1
+
n
2
{\displaystyle \,n_{1}+n_{2}\,}
次独立伯努利试验中取得成功的次数,所以
X
1
+
X
2
{\displaystyle \,X_{1}+X_{2}\,}
服从参数为
n
1
+
n
2
,
p
{\displaystyle \,n_{1}+n_{2},p\,}
的二项分布。这一结论亦可通过将两者的概率母函数相乘而得出。在条件
X
1
+
X
2
=
k
{\displaystyle \,X_{1}+X_{2}=k\,}
之下,随机变量
X
1
{\displaystyle \,X_{1}\,}
的条件概率分布 是参数为
k
,
n
1
,
n
1
+
n
2
{\displaystyle \,k,n_{1},n_{1}+n_{2}\,}
的超几何分布。
计算
Pr
(
X
=
k
)
{\displaystyle \,\Pr(X=k)\,}
和
Pr
(
X
=
k
+
1
)
{\displaystyle \,\Pr(X=k+1)\,}
的比值可以得到
Pr
(
X
=
k
+
1
)
Pr
(
X
=
k
)
=
(
n
−
k
)
p
(
k
+
1
)
(
1
−
p
)
(
k
=
0
,
1
,
…
,
n
−
1
)
,
{\displaystyle {\frac {\Pr(X=k+1)}{\Pr(X=k)}}={\frac {(n-k)p}{(k+1)(1-p)}}\quad (k=0,1,\ldots ,n-1),}
因此,当
k
<
(
n
+
1
)
p
−
1
{\displaystyle \,k<(n+1)p-1\,}
时,
Pr
(
X
=
k
)
{\displaystyle \,\Pr(X=k)\,}
随
k
{\displaystyle \,k\,}
增加而上升;当
k
>
(
n
+
1
)
p
−
1
{\displaystyle \,k>(n+1)p-1\,}
时,
Pr
(
X
=
k
)
{\displaystyle \,\Pr(X=k)\,}
随
k
{\displaystyle \,k\,}
增加而下降。故二项分布的众数 为
(
n
+
1
)
p
{\displaystyle \,(n+1)p\,}
的下取整
⌊
(
n
+
1
)
p
⌋
{\displaystyle \,\lfloor (n+1)p\rfloor \,}
。若
(
n
+
1
)
p
{\displaystyle \,(n+1)p\,}
本身是整数,则
(
n
+
1
)
p
{\displaystyle \,(n+1)p\,}
和
(
n
+
1
)
p
−
1
{\displaystyle \,(n+1)p-1\,}
均是众数。若
p
<
(
n
+
1
)
−
1
{\displaystyle \,p<(n+1)^{-1}\,}
,则众数为
0
{\displaystyle \,0\,}
。
二项分布的中位数
m
{\displaystyle \,m\,}
位于
n
p
{\displaystyle \,np\,}
的上下取整 之间,即
⌊
n
p
⌋
≤
m
≤
⌈
n
p
⌉
{\displaystyle \,\lfloor np\rfloor \leq m\leq \lceil np\rceil \,}
;若
n
p
{\displaystyle \,np\,}
为整数,则中位数
m
=
n
p
{\displaystyle \,m=np\,}
。中位数
m
{\displaystyle \,m\,}
和期望值
n
p
{\displaystyle \,np\,}
之间的差满足
|
m
−
n
p
|
<
max
{
p
,
1
−
p
}
.
{\displaystyle |m-np|<\max\{p,1-p\}.}
若
p
>
ln
2
{\displaystyle \,p>\ln 2\,}
或
p
<
1
−
ln
2
{\displaystyle \,p<1-\ln 2\,}
,则该上界可进一步缩减为
|
m
−
n
p
|
<
ln
2.
{\displaystyle |m-np|<\ln 2.}
若
n
{\displaystyle \,n\,}
为奇数 、
p
=
1
/
2
{\displaystyle \,p=1/2\,}
,则
(
n
−
1
)
/
2
{\displaystyle \,(n-1)/2\,}
和
(
n
+
1
)
/
2
{\displaystyle \,(n+1)/2\,}
均为中位数。
二项分布的累积分布函数 和尾概率可以用正则化不完全贝塔函数 表示为
Pr
(
X
≤
k
)
=
I
1
−
p
(
n
−
⌊
k
⌋
,
⌊
k
⌋
+
1
)
,
{\displaystyle \Pr(X\leq k)=I_{1-p}(n-\lfloor k\rfloor ,\lfloor k\rfloor +1),}
Pr
(
X
≥
k
)
=
I
p
(
⌈
k
⌉
,
n
−
⌈
k
⌉
+
1
)
.
{\displaystyle \Pr(X\geq k)=I_{p}(\lceil k\rceil ,n-\lceil k\rceil +1).}
二项分布的
r
{\displaystyle \,r\,}
阶原点矩 满足
μ
r
′
=
E
[
X
r
]
=
∑
j
=
0
r
S
(
r
,
j
)
n
!
p
j
(
n
−
j
)
!
,
{\displaystyle \mu '_{r}=E[X^{r}]=\sum _{j=0}^{r}{\frac {S(r,j)n!p^{j}}{(n-j)!}},}
其中
S
(
r
,
j
)
{\displaystyle \,S(r,j)\,}
表示第二类 斯特林数 。具体而言,
μ
1
′
=
n
p
,
{\displaystyle \mu '_{1}=np,}
μ
2
′
=
n
p
+
n
(
n
−
1
)
p
2
,
{\displaystyle \mu '_{2}=np+n(n-1)p^{2},}
μ
3
′
=
n
p
+
3
n
(
n
−
1
)
p
2
+
n
(
n
−
1
)
(
n
−
2
)
p
3
,
{\displaystyle \mu '_{3}=np+3n(n-1)p^{2}+n(n-1)(n-2)p^{3},}
μ
4
′
=
n
p
+
7
n
(
n
−
1
)
p
2
+
6
n
(
n
−
1
)
(
n
−
2
)
p
3
+
n
(
n
−
1
)
(
n
−
2
)
(
n
−
3
)
p
4
.
{\displaystyle \mu '_{4}=np+7n(n-1)p^{2}+6n(n-1)(n-2)p^{3}+n(n-1)(n-2)(n-3)p^{4}.}
其低阶中心矩 为
μ
2
=
n
p
(
1
−
p
)
,
{\displaystyle \mu _{2}=np(1-p),}
μ
3
=
n
p
(
1
−
p
)
(
1
−
2
p
)
,
{\displaystyle \mu _{3}=np(1-p)(1-2p),}
μ
4
=
3
[
n
p
(
1
−
p
)
]
2
+
n
p
(
1
−
p
)
[
1
−
6
p
(
1
−
p
)
]
.
{\displaystyle \mu _{4}=3[np(1-p)]^{2}+np(1-p)[1-6p(1-p)].}
n
=
6
{\displaystyle n=6}
、
p
=
0.5
{\displaystyle p=0.5}
时的二项分布 及其正态近似
标准二项分布
X
′
=
X
−
n
p
n
p
(
1
−
p
)
{\displaystyle X'={\frac {X-np}{\sqrt {np(1-p)}}}}
在
n
→
∞
{\displaystyle \,n\to \infty \,}
时趋近 于标准正态分布 。这一结果称作棣莫弗-拉普拉斯定理 ,为中心极限定理 的特殊形式。基于这一定理可以得到
Pr
(
α
<
X
−
n
p
n
p
(
1
−
p
)
<
β
)
→
Φ
(
β
)
−
Φ
(
α
)
,
{\displaystyle \Pr(\alpha <{\frac {X-np}{\sqrt {np(1-p)}}}<\beta )\to \Phi (\beta )-\Phi (\alpha ),}
其中
Φ
{\displaystyle \,\Phi \,}
为标准正态分布的累积分布函数 。
正态分布为连续概率分布 ,在近似二项分布这类离散概率分布时,可将端点向外偏移
0.5
{\displaystyle \,0.5\,}
得到
Pr
(
X
≤
k
)
≈
Φ
(
k
+
0.5
−
n
p
n
p
(
1
−
p
)
)
,
{\displaystyle \Pr(X\leq k)\approx \Phi \left({\frac {k+0.5-np}{\sqrt {np(1-p)}}}\right),}
从而提升近似的准确性,这种技巧称作连续性校正 。何时能采用这一近似依赖于使用经验法则 ,例如要求
n
p
(
1
−
p
)
>
9
{\displaystyle \,np(1-p)>9\,}
,或是在
p
≤
0.5
{\displaystyle \,p\leq 0.5\,}
时要求
n
p
>
5
{\displaystyle \,np>5\,}
、在
p
>
0.5
{\displaystyle \,p>0.5\,}
时要求
n
(
1
−
p
)
>
5
{\displaystyle \,n(1-p)>5\,}
。
当
n
→
∞
,
p
→
0
{\displaystyle \,n\to \infty ,p\to 0\,}
,而
n
p
{\displaystyle \,np\,}
保持不变时,二项分布趋近于参数为
n
p
{\displaystyle \,np\,}
的泊松分布 。以此为基础可以得到
Pr
(
X
≤
k
)
≈
e
−
n
p
∑
j
=
0
k
(
n
p
)
j
j
!
.
{\displaystyle \Pr(X\leq k)\approx e^{-np}\sum _{j=0}^{k}{\frac {(np)^{j}}{j!}}.}
二项分布与其泊松近似之间的绝对误差存在上界。若随机变量
X
{\displaystyle \,X\,}
服从参数为
n
,
p
{\displaystyle \,n,p\,}
的二项分布,随机变量
Y
{\displaystyle \,Y\,}
服从参数为
n
p
{\displaystyle \,np\,}
的泊松分布,则
∑
k
=
0
∞
‖
Pr
(
X
=
k
)
−
Pr
(
Y
=
k
)
‖
≤
min
{
2
n
p
2
,
3
p
}
.
{\displaystyle \sum _{k=0}^{\infty }\|\Pr(X=k)-\Pr(Y=k)\|\leq \min\{2np^{2},3p\}.}
通常参数
n
{\displaystyle \,n\,}
为已知。假设随机变量
X
{\displaystyle \,X\,}
服从二项分布,其参数
p
{\displaystyle \,p\,}
未知。若观测到
X
{\displaystyle \,X\,}
的值为
x
{\displaystyle \,x\,}
,采用矩估计 和最大似然估计 对参数
p
{\displaystyle \,p\,}
的估计量 均为
x
n
{\displaystyle \,{\frac {x}{n}}\,}
,这一估计量为无偏 的。
参数
p
{\displaystyle \,p\,}
的贝叶斯估计量 取决于使用的先验分布 。若使用连续型均匀分布 作为先验分布,即假设
0
{\displaystyle \,0\,}
和
1
{\displaystyle \,1\,}
之间任意等长的区间 包含
p
{\displaystyle \,p\,}
的概率都相同,则后验均值估计量为
p
^
=
x
+
1
n
+
2
.
{\displaystyle {\widehat {p}}={\frac {x+1}{n+2}}.}
这被称作拉普拉斯–贝叶斯估计量 ,曾被皮埃尔-西蒙·拉普拉斯 用于估计在太阳 连续升起
n
{\displaystyle \,n\,}
天之后,太阳明天还会升起的概率。由于人类知道太阳在过去五千年,即1,826,213天都正常升起,拉普拉斯愿意以1,826,214比1的赔率赌太阳明天继续升起。
若使用参数为
α
,
β
{\displaystyle \,\alpha ,\beta \,}
的贝塔分布 作为先验分布,则后验均值估计量为
p
^
=
α
+
x
+
1
α
+
β
+
n
+
2
.
{\displaystyle {\widehat {p}}={\frac {\alpha +x+1}{\alpha +\beta +n+2}}.}
采用贝塔分布作为先验分布时,后验分布 亦是贝塔分布,即贝塔分布为二项分布的共轭先验 。
若要对参数
p
{\displaystyle \,p\,}
以区间 形式给出估计,通过求解
∑
j
=
x
n
(
n
j
)
p
L
j
(
1
−
p
L
)
n
−
j
=
α
2
,
{\displaystyle \sum _{j=x}^{n}{n \choose j}p_{L}^{j}(1-p_{L})^{n-j}={\frac {\alpha }{2}},}
∑
j
=
0
x
(
n
j
)
p
U
j
(
1
−
p
U
)
n
−
j
=
α
2
,
{\displaystyle \sum _{j=0}^{x}{n \choose j}p_{U}^{j}(1-p_{U})^{n-j}={\frac {\alpha }{2}},}
所得的区间
(
p
L
,
p
U
)
{\displaystyle \,(p_{L},p_{U})\,}
为一个置信水平近似为
1
−
α
{\displaystyle \,1-\alpha \,}
的置信区间 ,称作克洛珀-皮尔逊区间(Clopper-Pearson interval )。
正态分布可以用于推导近似的置信区间。若用
λ
α
/
2
{\displaystyle \,\lambda _{\alpha /2}\,}
表示标准正态分布的第
1
−
α
2
{\displaystyle \,1-{\frac {\alpha }{2}}\,}
分位数 ,即
Φ
(
λ
α
/
2
)
=
1
−
α
2
{\displaystyle \,\Phi (\lambda _{\alpha /2})=1-{\frac {\alpha }{2}}\,}
,则区间两端的近似值为
x
n
±
λ
α
/
2
n
x
n
(
1
−
x
n
)
.
{\displaystyle {\frac {x}{n}}\pm {\frac {\lambda _{\alpha /2}}{\sqrt {n}}}{\sqrt {{\frac {x}{n}}\left(1-{\frac {x}{n}}\right)}}.}
Blyth, C. R. Approximate Binomial Confidence Limits . Journal of the American Statistical Association. 1986, 81 : 843–855. doi:10.1080/01621459.1986.10478343 (英语) .
Chew, V. Point Estimation of the Parameter of the Binomial Distribution. The American Statistician. 1971, 25 (5): 47–50. doi:10.1080/00031305.1971.10477305 (英语) .
Feller, W. An Introduction to Probability Theory and Its Applications, Volume 1, Third Edition. Wiley. 1968. ISBN 0-471-25708-7 (英语) .
Hald, A. A History of Probability and Statistics and Their Applications before 1750. Wiley. 2003. ISBN 0-471-47129-1 (英语) .
Hamza, K. The Smallest Uniform Upper Bound on the Distance Between the Mean and the Median of the Binomial and Poisson Distributions. Statistics and Probability Letters. 1995, 23 : 21–25. doi:10.1016/0167-7152(94)00090-U (英语) .
Johnson, N. L.; Kemp, A. W.; Kotz, S. Univariate Discrete Distributions, Third Edition. Wiley. 2005. ISBN 0-471-27246-9 (英语) .
Kaas, R.; Buhrman, J. M. Mean, Median and Mode in Binomial Distributions. Statistica Neerlandica. 1980, 34 (1): 13–18. doi:10.1111/j.1467-9574.1980.tb00681.x (英语) .
Schader, M.; Schmid, F. Two Rules of Thumb for the Approximation of the Binomial Distribution by the Normal Distribution. The American Statistician. 1989, 43 (1): 23–24. doi:10.1080/00031305.1989.10475601 (英语) .
Sheu, S. S. The Poisson Approximation to the Binomial Distribution . The American Statistician. 1984, 38 (3): 206–207. doi:10.1080/00031305.1984.10483202 (英语) .
Stigler, S. M. The History of Statistics: The Measurement of Uncertainty before 1900 . Harvard University Press. 1986. ISBN 0-674-40340-1 (英语) .