二項分佈

维基百科,自由的百科全书
跳转至: 导航搜索
二項分布
參數 n \geq 0 试验次数 (整数)
0\leq p \leq 1 成功概率 (实数)
支撑集 k \in \{0,\dots,n\}\!
概率質量函數 {n\choose k} p^k (1-p)^{n-k} \!
累積分佈函數 I_{1-p}(n-\lfloor k\rfloor, 1+\lfloor k\rfloor) \!
期望值 n\,p\!
中位數 \{\lfloor np\rfloor, \lceil np \rceil\}之一
眾數 \lfloor (n+1)\,p\rfloor\!\lfloor (n+1)\,p\rfloor\!-1
方差 n\,p\,(1-p)\!
偏度 \frac{1-2\,p}{\sqrt{n\,p\,(1-p)}}\!
峰度 \frac{1-6\,p\,(1-p)}{n\,p\,(1-p)}\!
信息熵 \frac{1}{2} \ln \left( 2 \pi n e p (1-p) \right) + O \left( \frac{1}{n} \right)\!
動差生成函數 (1-p + p\,e^t)^n \!
特性函数 (1-p + p\,e^{i\,t})^n \!

概率论统计学中,二项分布n独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率p。这样的单次成功/失败试验又称为伯努利试验。实际上,当n = 1时,二项分布就是伯努利分布。二项分布是显著性差异二项试验的基础。

详述[编辑]

概率质量函数[编辑]

一般地,如果随机变量\mathit{X}服从参数为\mathit{n}\mathit{p}的二项分布,我们记X \sim b(n,p)X \sim B(n,p).n次试验中正好得到k次成功的概率由概率质量函数给出:

 f(k;n,p) = \Pr(K = k) = {n\choose k}p^k(1-p)^{n-k}

对于k = 0, 1, 2, ..., n,其中{n\choose k}=\frac{n!}{k!(n-k)!}

二项式系数(这就是二项分布的名称的由来),又记为C(nk),  nCk,或nCk。该公式可以用以下方法理解:我们希望有k次成功(pk)和n − k次失败(1 − p)n − k。然而,k次成功可以在n次试验的任何地方出现,而把k次成功分布在n次试验中共有C(nk)个不同的方法。

在制造二项分布概率的参考表格时,通常表格中只填上n/2个值。这是因为k > n/2时的概率可以从它的补集计算出:

f(k;n,p)=f(n-k;n,1-p). \,

因此,我们要看另外一个k和另外一个p(二项分布一般不是对称的)。然而,它的表现不是任意的。总存在一个整数M,满足

(n+1)p-1 < M \leq (n+1)p. \,

作为k的函数,表达式ƒ(knp)当k < M时单调递增,k > M时单调递减,只有当(n + 1)p是整数时例外。在这时,有两个值使ƒ达到最大:(n + 1)p和(n + 1)p − 1。M是伯努利试验的最可能的结果,称为众数。注意它发生的概率可以很小。

累积分布函数[编辑]

累积分布函数可以表示为:

F(x;n,p) = \Pr(X \le x) = \sum_{i=0}^{\lfloor x \rfloor} {n\choose i}p^i(1-p)^{n-i}.

其中\scriptstyle \lfloor x\rfloor\,是小于或等于x最大整数

它也可以用正则化不完全贝塔函数来表示:


\begin{align}
F(k;n,p) & = \Pr(X \le k) = I_{1-p}(n-k, k+1) \\
& = (n-k) {n \choose k} \int_0^{1-p} t^{n-k-1} (1-t)^k \, dt.
\end{align}

期望和方差[编辑]

如果X ~ B(n, p)(也就是说,X是服从二项分布的随机变量),那么X期望值


    \operatorname{E}[X] = np

方差


    \operatorname{Var}[X] = np(1 - p).

这个事实很容易证明。首先假设有一个伯努利试验。试验有两个可能的结果:1和0,前者发生的概率为p,后者的概率为1 − p。该试验的期望值等于μ = 1 · p + 0 · (1−p) = p。该试验的方差也可以类似地计算:σ2 = (1−p)2·p + (0−p)2·(1−p) = p(1 − p).

一般的二项分布是n次独立的伯努利试验的和。它的期望值和方差分别等于每次单独试验的期望值和方差的和:


    \mu_n = \sum_{k=1}^n \mu = np, \qquad
    \sigma^2_n = \sum_{k=1}^n \sigma^2 = np(1 - p).

众数和中位数[编辑]

通常二项分布B(n, p)的众数等于⌊(n + 1)p⌋,其中e ⌊ ⌋ 是取整函数。然而,当(n + 1)p是整数且p不等于0或1时,分布有两个众数:(n + 1)p和(n + 1)p − 1。当p等于0或1时,众数相应地等于0或 n。这些情况可以综述如下:


    \text{mode} = 
      \begin{cases}
        \lfloor (n+1)\,p\rfloor & \text{if }(n+1)p\text{ is 0 or a noninteger}, \\
        (n+1)\,p\ \text{ and }\ (n+1)\,p - 1 &\text{if }(n+1)p\in\{1,\dots,n\}, \\
        n & \text{if }(n+1)p = n + 1.
      \end{cases}

一般地,没有一个单一的公式可以求出二项分布的中位数,甚至中位数可能是不唯一的。然而有几个特殊的结果:

  • 如果np是整数,那么平均数、中位数和众数相等,都等于np[1][2]
  • 任何中位数m都位于区间⌊np⌋ ≤ m ≤ ⌈np⌉内。[3]
  • 中位数m不能离平均数太远:|mnp| ≤ min{ ln 2, max{p, 1 − p} }。[4]
  • 如果p ≤ 1 − ln 2,或p ≥ ln 2,或|m − np| ≤ min{p, 1 − p}(除了p = ½、n是奇数的情况以外),那么中位数是唯一的,且等于m = round(np)。[3][4]
  • 如果p = 1/2,且n是奇数,那么区间½(n − 1) ≤ m ≤ ½(n + 1)中的任何数m都是二项分布的中位数。如果p = 1/2且n是偶数,那么m = n/2是唯一的中位数。

两个二项分布的协方差[编辑]

如果有两个服从二项分布的随机变量XY,我们可以求它们的协方差。利用协方差的定义,当n = 1时我们有

\operatorname{Cov}(X, Y) = \operatorname{E}(XY) - \mu_X \mu_Y.

第一项仅当XY都等于1时非零,而μXμY分别为X = 1和Y = 1的概率。定义pBXY都等于1的概率,便得到

\operatorname{Cov}(X, Y) = p_B - p_X p_Y, \,

对于n次独立的试验,我们便有

\operatorname{Cov}(X, Y)_n = n ( p_B - p_X p_Y ). \,

如果XY是相同的变量,便化为上面的方差公式。

与其他分布的关系[编辑]

二项分布的和[编辑]

如果X ~ B(np)和Y ~ B(mp),且XY相互独立,那么X + Y也服从二项分布;它的分布为

X+Y \sim B(n+m, p).\,

伯努利分布[编辑]

伯努利分布是二项分布在n = 1时的特殊情况。X ~ B(1, p)与X ~ Bern(p)的意思是相同的。相反,任何二项分布B(np)都是n次独立伯努利试验的和,每次试验成功的概率为p

泊松二项分布[编辑]

二项分布是泊松二项分布的一个特殊情况。泊松二项分布n次独立、不相同的伯努利试验(pi)的和。如果X服从泊松二项分布,且p1 = … = pn =p,那么X ~ B(np)。

正态近似[编辑]

n = 6、p = 0.5时的二项分布以及正态近似

如果n足够大,那么分布的偏度就比较小。在这种情况下,如果使用适当的连续性校正,那么B(np)的一个很好的近似是正态分布

 \mathcal{N}(np,\, np(1-p)).

n越大(至少20),近似越好,当p不接近0或1时更好。[5]不同的经验法则可以用来决定n是否足够大,以及p是否距离0或1足够远:

  • 一个规则是x=npn(1 − p)都必须大于 5。

泊松近似[编辑]

当试验的次数趋于无穷大,而乘积np固定时,二项分布收敛于泊松分布。因此参数为λ = np的泊松分布可以作为二项分布B(n, p)的近似,如果n足够大,而p足够小。[6]

极限[编辑]

  • n趋于∞,p趋于0,而np固定于λ > 0,或至少np趋于λ > 0时,二项分布B(np)趋于期望值为λ的泊松分布
  • n趋于∞而p固定时,
{X-np \over \sqrt{np(1-p)\ }}
的分布趋于期望值为 0、方差为 1的正态分布。这个结果是中心极限定理的一个特殊情况。

例子[编辑]

一个简单的例子如下:掷一枚骰子十次,那么掷得4的次数就服从n = 10、p = 1/6的二项分布。

參見[编辑]

参考文献[编辑]

  1. ^ Neumann, P. Über den Median der Binomial- and Poissonverteilung. Wissenschaftliche Zeitschrift der Technischen Universität Dresden. 1966, 19: 29–33 (German). 
  2. ^ Lord, Nick. (July 2010). "Binomial averages when the mean is an integer", The Mathematical Gazette 94, 331-332.
  3. ^ 3.0 3.1 Kaas, R.; Buhrman, J.M. Mean, Median and Mode in Binomial Distributions. Statistica Neerlandica. 1980, 34 (1): 13–18. doi:10.1111/j.1467-9574.1980.tb00681.x. 
  4. ^ 4.0 4.1 Hamza, K. The smallest uniform upper bound on the distance between the mean and the median of the binomial and Poisson distributions. Statistics & Probability Letters. 1995, 23: 21–25. doi:10.1016/0167-7152(94)00090-U.  编辑
  5. ^ Box, Hunter and Hunter. Statistics for experimenters. Wiley. 1978: 130. 
  6. ^ NIST/SEMATECH, "6.3.3.1. Counts Control Charts", e-Handbook of Statistical Methods.