泊松分佈

维基百科,自由的百科全书
跳转至: 导航搜索
泊松分布
Poisson distribution PMF.png
概率質量函數
Cumulative distribution function for the poisson distribution
累積分佈函數
參數 \lambda \ge 0
支撑集 k \in \{0,1,2,\ldots\}
概率質量函數 \frac{e^{-\lambda} \lambda^k}{k!}\!
累積分佈函數 \frac{\Gamma(k+1, \lambda)}{k!}\!
期望值 \lambda\,
眾數 \lfloor\lambda\rfloor
方差 \lambda\,
偏度 \lambda^{-1/2}\,
峰度 \lambda^{-1}\,
動差生成函數 \exp(\lambda (e^t-1))\,
特性函数 \exp(\lambda (e^{it}-1))\,

Poisson分布(法語:loi de Poisson,英語:Poisson distribution),译名有泊松分布普阿松分布卜瓦松分佈布瓦松分佈布阿松分佈波以松分佈卜氏分配等,又稱卜瓦松小數法則(Poisson law of small numbers),是一種統計概率學裡常見到的離散機率分佈,由法國數學家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年時發表。

泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数,电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数等等。

泊松分布的概率質量函数为:

P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}

泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。

记号[编辑]

\mathit{X}服从参数为\mathit{\lambda}的泊松分布,记为X \sim \pi(\lambda),或记为X \sim P(\lambda).

性质[编辑]

1.服从泊松分布的随机变量,其数学期望方差相等,同为参数λ: E(X)=V(X)=λ

2.兩個獨立且服从泊松分布的随机变量,其和仍然服从泊松分布 (更精確地說:若X ~ Poisson(λ1)且Y ~ Poisson(λ2),則 X+Y ~Poisson(λ1+λ2))

M_X(t)=E[e^{tX}]=\sum_{x=0}^\infty e^{tX}\frac{e^{-\lambda}\lambda^x}{x!}=e^{-\lambda}\sum_{x=0}^\infty\frac{({e^t}\lambda)^x}{x!}=e^{-\lambda}e^{\lambda e^t}=e^{{\lambda}(e^t-1)}

泊松分布的来源(泊松小数定律)[编辑]

二项分布伯努利试验中,如果试验次数n很大,二项分布的概率p很小,且乘积λ= n p比较适中,则事件出现的次数的概率可以用泊松分布来逼近。事实上,二项分布可以看作泊松分布在离散時間上的对应物。

证明如下。首先,回顾e的定义:

\lim_{n\to\infty}\left(1-{\lambda \over n}\right)^n=e^{-\lambda},

二项分布的定义:

P(X=k)={n \choose k} p^k (1-p)^{n-k}.

如果令p = \lambda/n, n趋于无穷时P的极限:


\begin{align}

\lim_{n\to\infty} P(X=k)&=\lim_{n\to\infty}{n \choose k} p^k (1-p)^{n-k} \\
 &=\lim_{n\to\infty}{n! \over (n-k)!k!} \left({\lambda \over n}\right)^k \left(1-{\lambda\over n}\right)^{n-k}\\
&=\lim_{n\to\infty}
\underbrace{\left[\frac{n!}{n^k\left(n-k\right)!}\right]}_F
\left(\frac{\lambda^k}{k!}\right)
\underbrace{\left(1-\frac{\lambda}{n}\right)^n}_{\to\exp\left(-\lambda\right)}
\underbrace{\left(1-\frac{\lambda}{n}\right)^{-k}}_{\to 1} \\
&= \lim_{n\to\infty}
\underbrace{\left[ \left(1-\frac{1}{n}\right)\left(1-\frac{2}{n}\right) \ldots \left(1-\frac{k-1}{n}\right)  \right]}_{\to 1}
\left(\frac{\lambda^k}{k!}\right)
\underbrace{\left(1-\frac{\lambda}{n}\right)^n}_{\to\exp\left(-\lambda\right)}
\underbrace{\left(1-\frac{\lambda}{n}\right)^{-k}}_{\to 1}      \\
&= \left(\frac{\lambda^k}{k!}\right)\exp\left(-\lambda\right)
\end{align}

最大似然估计[编辑]

给定n个样本值ki,希望得到从中推测出总体的泊松分布参数λ的估计。为计算最大似然估计值, 列出对数似然函数:


\begin{align}
L(\lambda) & = \log \prod_{i=1}^n f(k_i \mid \lambda) \\
& = \sum_{i=1}^n \log\!\left(\frac{e^{-\lambda}\lambda^{k_i}}{k_i!}\right) \\
& = -n\lambda + \left(\sum_{i=1}^n k_i\right) \log(\lambda) - \sum_{i=1}^n \log(k_i!). \end{align}

对函数L取相对于λ的导数并令其等于零:

\frac{\mathrm{d}}{\mathrm{d}\lambda} L(\lambda) = 0
\iff -n + \left(\sum_{i=1}^n k_i\right) \frac{1}{\lambda} = 0. \!

解得λ从而得到一个驻点(stationary point):

\widehat{\lambda}_\mathrm{MLE}=\frac{1}{n}\sum_{i=1}^n k_i. \!

检查函数L的二阶导数,发现对所有的λ 与ki大于零的情况二阶导数都为负。因此求得的驻点是对数似然函数L的极大值点:

\frac{\partial^2 L}{\partial \lambda^2} =  \sum_{i=1}^n -\lambda^{-2} k_i

例子[编辑]

对某公共汽车站的客流做调查,统计了某天上午10:30到11:47来到候车的乘客情况。假定来到候车的乘客各批(每批可以是1人也可以是多人)是互相独立发生的。观察每20秒区间来到候车的乘客批次,共观察77分钟*3=231次,共得到230个观察记录。其中来到0批、1批、2批、3批、4批及4批以上的观察记录分别是100个、81个、34个、9个、6个。使用极大似真估计(MLE),得到\lambda的估计为200/231=0.8658。

参见[编辑]