二項分布
概率质量函數  |
累積分布函數  |
记号 |
B(n, p) |
---|
参数 |
试验次数 (整数)
成功概率 (实数) |
---|
值域 |
 |
---|
概率质量函数 |
 |
---|
累積分布函數 |
 |
---|
期望值 |
 |
---|
中位數 |
之一 |
---|
眾數 |
或 |
---|
方差 |
 |
---|
偏度 |
 |
---|
峰度 |
 |
---|
熵 |
 |
---|
矩生成函数 |
 |
---|
特徵函数 |
 |
---|
在概率论和统计学中,二项分布(英語:Binomial distribution)是
个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为
。这样的单次成功/失败试验又称为伯努利试验。实际上,当
时,二项分布就是伯努利分布。二项分布是显著性差异的二项试验的基础。
概率质量函数[编辑]
一般來說,若随机变量
服从参数为
和
的二项分布,我们记作
或
。n次试验中正好得到k次成功的概率由概率质量函数给出:

对于
,其中
是二项式系数(这就是二项分布的名称的由来),又记为
,
,或
。该公式可以用以下方法理解:我们希望有
次成功(
)和
次失败
。然而,
次成功可以在
次试验的任何地方出现,而把
次成功分布在
次试验中共有
个不同的方法。
在制造二项分布概率的参考表格时,通常表格中只填上
个值。这是因为
时的概率可以从它的补集计算出:

因此,我们要看另外一个
和另外一个
(二项分布一般不是对称的)。然而,它的表现不是任意的。总存在一个整数
,满足:

作为
的函数,表达式
当
时单调递增,
时单调递减,只有当
是整数时例外。在这时,有两个值使
达到最大:
和
。
是伯努利试验的最可能的结果,称为众数。注意它发生的概率可以很小。
累积分布函数(概率分布函数)[编辑]
累积分布函数可以表示为:

其中
是小于或等于
的最大整数。
它也可以用正则化不完全贝塔函数来表示:

期望和方差[编辑]
如果
(也就是说,
是服从二项分布的随机变量),那么
的期望值为
![\operatorname {E} [X]=np](https://wikimedia.org/api/rest_v1/media/math/render/svg/8a847aa9a0c1fc2751c00a6b9cb4be55e784e88a)
方差为
![\operatorname {Var} [X]=np(1-p).](https://wikimedia.org/api/rest_v1/media/math/render/svg/aa57bb99dc27f5bcee3d3e63bff1952994b3bb70)
这个事实很容易证明。首先假设有一个伯努利试验。试验有两个可能的结果:1和0,前者发生的概率为
,后者的概率为
。该试验的期望值等于
。该试验的方差也可以类似地计算:
.
一般的二项分布是
次独立的伯努利试验的和。它的期望值和方差分别等于每次单独试验的期望值和方差的和:

众数和中位数[编辑]
通常二项分布
的众数等于
,其中
是取整函数。然而,当
是整数且
不等于0或1时,分布有两个众数:
和
。当
等于0或1时,众数相应地等于0或
。这些情况可以综述如下:

一般地,没有一个单一的公式可以求出二项分布的中位数,甚至中位数可能是不唯一的。然而有几个特殊的结果:
- 如果
是整数,那么平均数、中位数和众数相等,都等于
。[1][2]
- 任何中位数
都位于区间
内。[3]
- 中位数
不能离平均数太远:
。[4]
- 如果
,或
,或
(除了
、
是奇数的情况以外),那么中位数是唯一的,且等于
。[3][4]
- 如果
,且
是奇数,那么区间
中的任何数
都是二项分布的中位数。如果
且
是偶数,那么
是唯一的中位数。
两个二项分布的协方差[编辑]
如果有两个服从二项分布的随机变量
和
,我们可以求它们的协方差。利用协方差的定义,当
时我们有

第一项仅当
和
都等于1时非零,而
和
分别为
和
的概率。定义
为
和
都等于1的概率,便得到

对于n次独立的试验,我们便有

如果
和
是相同的变量,便化为上面的方差公式。
与其他分布的关系[编辑]
二项分布的和[编辑]
如果
和
,且
和
相互独立,那么
也服从二项分布;它的分布为

伯努利分布[编辑]
伯努利分布是二项分布在
时的特殊情况。
与
的意思是相同的。相反,任何二项分布
都是
次独立伯努利试验的和,每次试验成功的概率为
。
泊松二项分布[编辑]
二项分布是泊松二项分布的一个特殊情况。泊松二项分布是
次独立、不相同的伯努利试验(
)的和。如果
服从泊松二项分布,且
,那么
。
正态近似[编辑]

、

时的
二项分布以及
正态近似
如果
足够大,那么分布的偏度就比较小。在这种情况下,如果使用适当的连续性校正,那么
的一个很好的近似是正态分布:


越大(至少30),近似越好,当
不接近0或1时更好。[5]不同的经验法则可以用来决定
是否足够大,以及
是否距离0或1足够远:
- 一个规则是
和
都必须大于5。
泊松近似[编辑]
当试验的次数趋于无穷大,而乘积
固定时,二项分布收敛于泊松分布。因此参数为
的泊松分布可以作为二项分布
的近似,如果
足够大,而
足够小。[6]
- 当
趋于
,
趋于0,而
固定于
,或至少
趋于
时,二项分布
趋于期望值为λ的泊松分布。
- 当
趋于
而
固定时,

- 的分布趋于期望值为 0、方差为 1的正态分布。这个结果是中心极限定理的一个特殊情况。
一个简单的例子如下:掷一枚骰子十次,那么掷得4的次数就服从
、
的二项分布。
参考文献[编辑]
- ^ Neumann, P. Über den Median der Binomial- and Poissonverteilung. Wissenschaftliche Zeitschrift der Technischen Universität Dresden. 1966, 19: 29–33 (德语).
- ^ Lord, Nick. (July 2010). "Binomial averages when the mean is an integer", The Mathematical Gazette 94, 331-332.
- ^ 3.0 3.1 Kaas, R.; Buhrman, J.M. Mean, Median and Mode in Binomial Distributions. Statistica Neerlandica. 1980, 34 (1): 13–18. doi:10.1111/j.1467-9574.1980.tb00681.x.
- ^ 4.0 4.1 Kais Hamza. The smallest uniform upper bound on the distance between the mean and the median of the binomial and Poisson distributions. Statistics & Probability Letters: 21–25. [2018-04-02]. doi:10.1016/0167-7152(94)00090-u. (原始内容存档于2020-12-15). (页面存档备份,存于互联网档案馆)
- ^ Box, Hunter and Hunter. Statistics for experimenters. Wiley. 1978: 130.
- ^ NIST/SEMATECH, "6.3.3.1. Counts Control Charts" (页面存档备份,存于互联网档案馆), e-Handbook of Statistical Methods.