二項分布
概率质量函數
累積分布函數
记号
B (n , p ) 参数
n
≥
0
{\displaystyle n\geq 0}
试验次数 (整数 )
0
≤
p
≤
1
{\displaystyle 0\leq p\leq 1}
成功概率 (实数 ) 值域
k
∈
{
0
,
…
,
n
}
{\displaystyle k\in \{0,\dots ,n\}\!}
概率质量函数
(
n
k
)
p
k
(
1
−
p
)
n
−
k
{\displaystyle {n \choose k}p^{k}(1-p)^{n-k}\!}
累積分布函數
I
1
−
p
(
n
−
⌊
k
⌋
,
1
+
⌊
k
⌋
)
{\displaystyle I_{1-p}(n-\lfloor k\rfloor ,1+\lfloor k\rfloor )\!}
期望值
n
p
{\displaystyle n\,p\!}
中位數
{
⌊
n
p
⌋
,
⌈
(
n
+
1
)
p
⌉
}
{\displaystyle \{\lfloor np\rfloor ,\lceil (n+1)p\rceil \}}
之一 眾數
⌊
(
n
+
1
)
p
⌋
{\displaystyle \lfloor (n+1)\,p\rfloor \!}
或
⌊
(
n
+
1
)
p
⌋
−
1
{\displaystyle \lfloor (n+1)\,p\rfloor \!-1}
方差
n
p
(
1
−
p
)
{\displaystyle n\,p\,(1-p)\!}
偏度
1
−
2
p
n
p
(
1
−
p
)
{\displaystyle {\frac {1-2\,p}{\sqrt {n\,p\,(1-p)}}}\!}
峰度
1
−
6
p
(
1
−
p
)
n
p
(
1
−
p
)
{\displaystyle {\frac {1-6\,p\,(1-p)}{n\,p\,(1-p)}}\!}
熵
1
2
ln
(
2
π
n
e
p
(
1
−
p
)
)
+
O
(
1
n
)
{\displaystyle {\frac {1}{2}}\ln \left(2\pi nep(1-p)\right)+O\left({\frac {1}{n}}\right)\!}
矩生成函数
(
1
−
p
+
p
e
t
)
n
{\displaystyle (1-p+p\,e^{t})^{n}\!}
特徵函数
(
1
−
p
+
p
e
i
t
)
n
{\displaystyle (1-p+p\,e^{i\,t})^{n}\!}
在概率论 和统计学 中,二项分布 (英語:Binomial distribution )是n 个独立 的是/非试验中成功的次数的离散概率分布 ,其中每次试验的成功概率 为p 。这样的单次成功/失败试验又称为伯努利试验 。实际上,当n = 1时,二项分布就是伯努利分布 。二项分布是显著性差异 的二项试验 的基础。
概率质量函数 [ 编辑 ]
一般來說,若随机变量
X
{\displaystyle {\mathit {X}}}
服从参数为
n
{\displaystyle {\mathit {n}}}
和
p
{\displaystyle {\mathit {p}}}
的二项分布,我们记作
X
∼
b
(
n
,
p
)
{\displaystyle X\sim b(n,p)}
或
X
∼
B
(
n
,
p
)
{\displaystyle X\sim B(n,p)}
。n次试验中正好得到k 次成功的概率由概率质量函数 给出:
f
(
k
,
n
,
p
)
=
Pr
(
X
=
k
)
=
(
n
k
)
p
k
(
1
−
p
)
n
−
k
{\displaystyle f(k,n,p)=\Pr(X=k)={n \choose k}p^{k}(1-p)^{n-k}}
对于k = 0, 1, 2, ..., n ,其中
(
n
k
)
=
n
!
k
!
(
n
−
k
)
!
{\displaystyle {n \choose k}={\frac {n!}{k!(n-k)!}}}
是二项式系数 (这就是二项分布的名称的由来),又记为C (n , k ),n C k ,或n C k 。该公式可以用以下方法理解:我们希望有k 次成功(p k )和n − k 次失败(1 − p )n − k 。然而,k 次成功可以在n 次试验的任何地方出现,而把k 次成功分布在n 次试验中共有C(n , k )个不同的方法。
在制造二项分布概率的参考表格时,通常表格中只填上n /2个值。这是因为k > n /2时的概率可以从它的补集计算出:
f
(
k
;
n
,
p
)
=
f
(
n
−
k
;
n
,
1
−
p
)
{\displaystyle f(k;n,p)=f(n-k;n,1-p)\,}
因此,我们要看另外一个k 和另外一个p (二项分布一般不是对称的)。然而,它的表现不是任意的。总存在一个整数M ,满足:
(
n
+
1
)
p
−
1
<
M
≤
(
n
+
1
)
p
{\displaystyle (n+1)p-1<M\leq (n+1)p\,}
作为k 的函数,表达式ƒ (k ; n , p )当k < M 时单调递增,k > M 时单调递减,只有当(n + 1)p 是整数时例外。在这时,有两个值使ƒ 达到最大:(n + 1)p 和(n + 1)p − 1。M 是伯努利试验的最可能的结果,称为众数 。注意它发生的概率可以很小。
累积分布函数(概率分布函数) [ 编辑 ]
累积分布函数 可以表示为:
F
(
x
;
n
,
p
)
=
Pr
(
X
≤
x
)
=
∑
i
=
0
⌊
x
⌋
(
n
i
)
p
i
(
1
−
p
)
n
−
i
{\displaystyle F(x;n,p)=\Pr(X\leq x)=\sum _{i=0}^{\lfloor x\rfloor }{n \choose i}p^{i}(1-p)^{n-i}}
其中
⌊
x
⌋
{\displaystyle \scriptstyle \lfloor x\rfloor \,}
是小于或等于x 的最大整数 。
它也可以用正则化不完全贝塔函数 来表示:
F
(
k
;
n
,
p
)
=
Pr
(
X
≤
k
)
=
I
1
−
p
(
n
−
k
,
k
+
1
)
=
(
n
−
k
)
(
n
k
)
∫
0
1
−
p
t
n
−
k
−
1
(
1
−
t
)
k
d
t
{\displaystyle {\begin{aligned}F(k;n,p)&=\Pr(X\leq k)=I_{1-p}(n-k,k+1)\\&=(n-k){n \choose k}\int _{0}^{1-p}t^{n-k-1}(1-t)^{k}\,dt\end{aligned}}}
期望和方差 [ 编辑 ]
如果X ~ B (n , p )(也就是说,X 是服从二项分布的随机变量),那么X 的期望值 为
E
[
X
]
=
n
p
{\displaystyle \operatorname {E} [X]=np}
方差 为
Var
[
X
]
=
n
p
(
1
−
p
)
.
{\displaystyle \operatorname {Var} [X]=np(1-p).}
这个事实很容易证明。首先假设有一个伯努利试验。试验有两个可能的结果:1和0,前者发生的概率为p ,后者的概率为1−p 。该试验的期望值等于μ = 1 · p + 0 · (1−p ) = p 。该试验的方差也可以类似地计算:σ 2 = (1−p )2 ·p + (0−p )2 ·(1−p ) = p (1 − p ) .
一般的二项分布是n 次独立的伯努利试验的和。它的期望值和方差分别等于每次单独试验的期望值和方差的和:
μ
n
=
∑
k
=
1
n
μ
=
n
p
,
σ
n
2
=
∑
k
=
1
n
σ
2
=
n
p
(
1
−
p
)
.
{\displaystyle \mu _{n}=\sum _{k=1}^{n}\mu =np,\qquad \sigma _{n}^{2}=\sum _{k=1}^{n}\sigma ^{2}=np(1-p).}
众数和中位数 [ 编辑 ]
通常二项分布B (n , p )的众数 等于⌊(n + 1)p ⌋,其中
⌊
⋅
⌋
{\displaystyle \lfloor \cdot \rfloor }
是取整函数 。然而,当(n + 1)p 是整数且p 不等于0或1时,分布有两个众数:(n + 1)p 和(n + 1)p − 1。当p 等于0或1时,众数相应地等于0或 n 。这些情况可以综述如下:
mode
=
{
⌊
(
n
+
1
)
p
⌋
若
(
n
+
1
)
p
是 0 或 非 整 数
,
(
n
+
1
)
p
和
(
n
+
1
)
p
−
1
若
(
n
+
1
)
p
∈
{
1
,
…
,
n
}
,
n
若
(
n
+
1
)
p
=
n
+
1.
{\displaystyle {\text{mode}}={\begin{cases}\lfloor (n+1)\,p\rfloor &{\text{若 }}(n+1)p{\text{ 是 0 或 非 整 数 }},\\(n+1)\,p\ {\text{ 和 }}\ (n+1)\,p-1&{\text{若 }}(n+1)p\in \{1,\dots ,n\},\\n&{\text{若 }}(n+1)p=n+1.\end{cases}}}
一般地,没有一个单一的公式可以求出二项分布的中位数 ,甚至中位数可能是不唯一的。然而有几个特殊的结果:
如果np 是整数,那么平均数、中位数和众数相等,都等于np 。[1] [2]
任何中位数m 都位于区间⌊np ⌋ ≤ m ≤ ⌈np ⌉内。[3]
中位数m 不能离平均数太远:|m − np | ≤ min{ ln 2, max{p , 1 − p } }。[4]
如果p ≤ 1 − ln 2 ,或p ≥ ln 2 ,或|m − np | ≤ min{p , 1 − p }(除了p = ½、n 是奇数的情况以外),那么中位数是唯一的,且等于m = round (np )。[3] [4]
如果p = 1/2,且n 是奇数,那么区间½(n − 1) ≤ m ≤ ½(n + 1)中的任何数m 都是二项分布的中位数。如果p = 1/2且n 是偶数,那么m = n /2是唯一的中位数。
两个二项分布的协方差 [ 编辑 ]
如果有两个服从二项分布的随机变量X 和Y ,我们可以求它们的协方差。利用协方差 的定义,当n = 1时我们有
Cov
(
X
,
Y
)
=
E
(
X
Y
)
−
μ
X
μ
Y
.
{\displaystyle \operatorname {Cov} (X,Y)=\operatorname {E} (XY)-\mu _{X}\mu _{Y}.}
第一项仅当X 和Y 都等于1时非零,而μ X 和μ Y 分别为X = 1和Y = 1的概率。定义p B 为X 和Y 都等于1的概率,便得到
Cov
(
X
,
Y
)
=
p
B
−
p
X
p
Y
,
{\displaystyle \operatorname {Cov} (X,Y)=p_{B}-p_{X}p_{Y},\,}
对于n 次独立的试验,我们便有
Cov
(
X
,
Y
)
n
=
n
(
p
B
−
p
X
p
Y
)
.
{\displaystyle \operatorname {Cov} (X,Y)_{n}=n(p_{B}-p_{X}p_{Y}).\,}
如果X 和Y 是相同的变量,便化为上面的方差公式。
与其他分布的关系 [ 编辑 ]
二项分布的和 [ 编辑 ]
如果X ~ B(n , p )和Y ~ B(m , p ),且X 和Y 相互独立,那么X + Y 也服从二项分布;它的分布为
X
+
Y
∼
B
(
n
+
m
,
p
)
.
{\displaystyle X+Y\sim B(n+m,p).\,}
伯努利分布 [ 编辑 ]
伯努利分布 是二项分布在n = 1时的特殊情况。X ~ B(1, p )与X ~ Bern(p )的意思是相同的。相反,任何二项分布B(n ,p )都是n 次独立伯努利试验 的和,每次试验成功的概率为p 。
泊松二项分布 [ 编辑 ]
二项分布是泊松二项分布 的一个特殊情况。泊松二项分布 是n 次独立、不相同的伯努利试验 (pi )的和。如果X 服从泊松二项分布,且p1 = … = pn =p ,那么X ~ B(n , p )。
正态近似 [ 编辑 ]
如果n 足够大,那么分布的偏度就比较小。在这种情况下,如果使用适当的连续性校正 ,那么B(n , p )的一个很好的近似是正态分布 :
N
(
n
p
,
n
p
(
1
−
p
)
)
{\displaystyle {\mathcal {N}}(np,\,np(1-p))}
V
a
r
(
x
)
=
n
p
(
1
−
p
)
{\displaystyle {\mathcal {Var}}(x)=np(1-p)}
n 越大(至少30),近似越好,当p 不接近0或1时更好。[5] 不同的经验法则 可以用来决定n 是否足够大,以及p 是否距离0或1足够远:
泊松近似 [ 编辑 ]
当试验的次数趋于无穷大,而乘积np 固定时,二项分布收敛于泊松分布 。因此参数为λ = np 的泊松分布可以作为二项分布B(n , p )的近似,如果n 足够大,而p 足够小。[6]
当n 趋于∞,p 趋于0,而np 固定于λ > 0,或至少np 趋于λ > 0时,二项分布B(n , p )趋于期望值 为λ的泊松分布 。
X
−
n
p
n
p
(
1
−
p
)
{\displaystyle {X-np \over {\sqrt {np(1-p)\ }}}}
的分布趋于期望值为 0、方差 为 1的正态分布 。这个结果是中心极限定理 的一个特殊情况。
一个简单的例子如下:掷一枚骰子 十次,那么掷得4的次数就服从n = 10、p = 1/6的二项分布。
参考文献 [ 编辑 ]
^ Neumann, P. Über den Median der Binomial- and Poissonverteilung. Wissenschaftliche Zeitschrift der Technischen Universität Dresden. 1966, 19 : 29–33 (德语) .
^ Lord, Nick. (July 2010). "Binomial averages when the mean is an integer", The Mathematical Gazette 94, 331-332.
^ 3.0 3.1 Kaas, R.; Buhrman, J.M. Mean, Median and Mode in Binomial Distributions. Statistica Neerlandica. 1980, 34 (1): 13–18. doi:10.1111/j.1467-9574.1980.tb00681.x .
^ 4.0 4.1 Kais Hamza. The smallest uniform upper bound on the distance between the mean and the median of the binomial and Poisson distributions . Statistics & Probability Letters: 21–25. [2018-04-02 ] . doi:10.1016/0167-7152(94)00090-u . (原始内容存档 于2020-12-15).
^ Box, Hunter and Hunter. Statistics for experimenters . Wiley. 1978: 130 .
^ NIST /SEMATECH , "6.3.3.1. Counts Control Charts" (页面存档备份 ,存于互联网档案馆 ), e-Handbook of Statistical Methods.
有限支集 离散单变量 无限支集 离散单变量 紧支集 连续单变量 半无限区间支集 连续单变量 无限区间支集 连续单变量 可变类型支集 连续单变量 混合连续离散单变量 多元(联合) 定向 退化 和奇异 族