帕松分佈
橫軸是索引k ,發生次數。該函數只定義在k 為整數的時候。連接線是只為了指導視覺。
機率質量函數
橫軸是索引k ,發生次數。CDF在整數k 處不連續,且在其他任何地方都是水平的,因為服從帕松分佈的變數只針對整數值。
累積分佈函數
參數
λ > 0(實數 )
支撐集
k ∈ { 0, 1, 2, 3, ... }
機率质量函數
λ
k
k
!
e
−
λ
{\displaystyle {\frac {\lambda ^{k}}{k!}}e^{-\lambda }}
累積分佈函數
Γ
(
⌊
k
+
1
⌋
,
λ
)
⌊
k
⌋
!
{\displaystyle {\frac {\Gamma (\lfloor k+1\rfloor ,\lambda )}{\lfloor k\rfloor !}}}
,或
e
−
λ
∑
i
=
0
⌊
k
⌋
λ
i
i
!
{\displaystyle e^{-\lambda }\sum _{i=0}^{\lfloor k\rfloor }{\frac {\lambda ^{i}}{i!}}\ }
,或
Q
(
⌊
k
+
1
⌋
,
λ
)
{\displaystyle Q(\lfloor k+1\rfloor ,\lambda )}
(對於
k
≥
0
{\displaystyle k\geq 0}
,其中
Γ
(
x
,
y
)
{\displaystyle \Gamma (x,y)}
是不完全Γ函數 ,
⌊
k
⌋
{\displaystyle \lfloor k\rfloor }
是高斯符號 ,Q是規則化Γ函數)
期望值
λ
{\displaystyle \lambda }
中位數
≈
⌊
λ
+
1
/
3
−
0.02
/
λ
⌋
{\displaystyle \approx \lfloor \lambda +1/3-0.02/\lambda \rfloor }
眾數
⌈
λ
⌉
−
1
,
⌊
λ
⌋
{\displaystyle \lceil \lambda \rceil -1,\lfloor \lambda \rfloor }
變異數
λ
{\displaystyle \lambda }
偏度
λ
−
1
/
2
{\displaystyle \lambda ^{-1/2}}
峰度
λ
−
1
{\displaystyle \lambda ^{-1}}
信息熵
λ
[
1
−
log
(
λ
)
]
+
e
−
λ
∑
k
=
0
∞
λ
k
log
(
k
!
)
k
!
{\displaystyle \lambda [1-\log(\lambda )]+e^{-\lambda }\sum _{k=0}^{\infty }{\frac {\lambda ^{k}\log(k!)}{k!}}}
(for large
λ
{\displaystyle \lambda }
)
1
2
log
(
2
π
e
λ
)
−
1
12
λ
−
1
24
λ
2
−
{\displaystyle {\frac {1}{2}}\log(2\pi e\lambda )-{\frac {1}{12\lambda }}-{\frac {1}{24\lambda ^{2}}}-}
19
360
λ
3
+
O
(
1
λ
4
)
{\displaystyle \qquad {\frac {19}{360\lambda ^{3}}}+O\left({\frac {1}{\lambda ^{4}}}\right)}
動差生成函數
exp
(
λ
(
e
t
−
1
)
)
{\displaystyle \exp(\lambda (e^{t}-1))}
特性函數
exp
(
λ
(
e
i
t
−
1
)
)
{\displaystyle \exp(\lambda (e^{it}-1))}
Poisson分佈 (法語:loi de Poisson ,英語:Poisson distribution ),譯名有泊松分佈 、普阿松分佈 、帕松分佈 、布瓦松分佈 、布阿松分佈 、波以松分佈 、卜氏分配 等,又稱帕松小數法則(Poisson law of small numbers),是一種統計 與機率 學裡常見到的離散機率分佈 ,由法國 數學家 西莫恩·德尼·帕松 (Siméon-Denis Poisson)在1838年時發表。
帕松分佈適合於描述單位時間內隨機事件發生的次數的機率分佈。如某一服務設施在一定時間內受到的服務請求的次數,電話 交換機 接到呼叫的次數、汽車站台的候客人數、機器出現的故障數、自然災害 發生的次數、DNA序列的變異數、放射性原子核的衰變數、雷射 的光子數分佈等等。
帕松分佈的機率質量函數 為:
P
(
X
=
k
)
=
e
−
λ
λ
k
k
!
{\displaystyle P(X=k)={\frac {e^{-\lambda }\lambda ^{k}}{k!}}}
帕松分佈的參數λ是單位時間(或單位面積)內隨機事件的平均發生率。
根據泰勒展開式 可得:
e
λ
=
∑
k
=
0
+
∞
λ
k
k
!
{\displaystyle e^{\lambda }=\sum _{k=0}^{+\infty }{\frac {\lambda ^{k}}{k!}}}
[需要解釋 ]
若
X
{\displaystyle X}
服從參數為
λ
{\displaystyle \lambda }
的帕松分佈,記為
X
∼
π
(
λ
)
{\displaystyle X\sim \pi (\lambda )}
,或記為
X
∼
P
(
λ
)
{\displaystyle X\sim P(\lambda )}
.
1、服從帕松分佈的隨機變數 ,其數學期望 與變異數 相等,同為參數λ:E(X)=V(X)=λ
2、兩個獨立且服從帕松分佈的隨機變數 ,其和仍然服從帕松分佈。更精確地說,若X ~ Poisson(λ1)且Y ~ Poisson(λ2),則X+Y ~Poisson(λ1+λ2)。
3、其矩母函數 為:
M
X
(
t
)
=
E
[
e
t
X
]
=
∑
x
=
0
∞
e
t
x
e
−
λ
λ
x
x
!
=
e
−
λ
∑
x
=
0
∞
(
e
t
λ
)
x
x
!
=
e
λ
(
e
t
−
1
)
{\displaystyle M_{X}(t)=E[e^{tX}]=\sum _{x=0}^{\infty }e^{tx}{\frac {e^{-\lambda }\lambda ^{x}}{x!}}=e^{-\lambda }\sum _{x=0}^{\infty }{\frac {({e^{t}}\lambda )^{x}}{x!}}=e^{{\lambda }(e^{t}-1)}}
帕松分佈的來源(帕松小數定律) [ 編輯 ]
在二項分佈 的伯努利試驗 中,如果試驗次數n很大,二項分佈的機率p很小,且乘積λ= np 比較適中,則事件出現的次數的機率可以用帕松分佈來逼近。事實上,二項分佈可以看作帕松分佈在離散時間上的對應物。
證明如下。首先,回顧e 的定義:
lim
n
→
∞
(
1
−
λ
n
)
n
=
e
−
λ
,
{\displaystyle \lim _{n\to \infty }\left(1-{\lambda \over n}\right)^{n}=e^{-\lambda },}
二項分佈的定義:
P
(
X
=
k
)
=
(
n
k
)
p
k
(
1
−
p
)
n
−
k
{\displaystyle P(X=k)={n \choose k}p^{k}(1-p)^{n-k}}
。
如果令
p
=
λ
/
n
{\displaystyle p=\lambda /n}
,
n
{\displaystyle n}
趨於無窮時
P
{\displaystyle P}
的極限:
lim
n
→
∞
P
(
X
=
k
)
=
lim
n
→
∞
(
n
k
)
p
k
(
1
−
p
)
n
−
k
=
lim
n
→
∞
n
!
(
n
−
k
)
!
k
!
(
λ
n
)
k
(
1
−
λ
n
)
n
−
k
=
lim
n
→
∞
[
n
!
n
k
(
n
−
k
)
!
]
⏟
F
(
λ
k
k
!
)
(
1
−
λ
n
)
n
⏟
→
exp
(
−
λ
)
(
1
−
λ
n
)
−
k
⏟
→
1
=
lim
n
→
∞
[
(
1
−
1
n
)
(
1
−
2
n
)
…
(
1
−
k
−
1
n
)
]
⏟
→
1
(
λ
k
k
!
)
(
1
−
λ
n
)
n
⏟
→
exp
(
−
λ
)
(
1
−
λ
n
)
−
k
⏟
→
1
=
(
λ
k
k
!
)
exp
(
−
λ
)
{\displaystyle {\begin{aligned}\lim _{n\to \infty }P(X=k)&=\lim _{n\to \infty }{n \choose k}p^{k}(1-p)^{n-k}\\&=\lim _{n\to \infty }{n! \over (n-k)!k!}\left({\lambda \over n}\right)^{k}\left(1-{\lambda \over n}\right)^{n-k}\\&=\lim _{n\to \infty }\underbrace {\left[{\frac {n!}{n^{k}\left(n-k\right)!}}\right]} _{F}\left({\frac {\lambda ^{k}}{k!}}\right)\underbrace {\left(1-{\frac {\lambda }{n}}\right)^{n}} _{\to \exp \left(-\lambda \right)}\underbrace {\left(1-{\frac {\lambda }{n}}\right)^{-k}} _{\to 1}\\&=\lim _{n\to \infty }\underbrace {\left[\left(1-{\frac {1}{n}}\right)\left(1-{\frac {2}{n}}\right)\ldots \left(1-{\frac {k-1}{n}}\right)\right]} _{\to 1}\left({\frac {\lambda ^{k}}{k!}}\right)\underbrace {\left(1-{\frac {\lambda }{n}}\right)^{n}} _{\to \exp \left(-\lambda \right)}\underbrace {\left(1-{\frac {\lambda }{n}}\right)^{-k}} _{\to 1}\\&=\left({\frac {\lambda ^{k}}{k!}}\right)\exp \left(-\lambda \right)\end{aligned}}}
最大似然估計 [ 編輯 ]
給定n 個樣本值k i ,希望得到從中推測出總體的帕松分佈參數λ 的估計。為計算最大似然估計 值,列出對數似然函數:
L
(
λ
)
=
log
∏
i
=
1
n
f
(
k
i
∣
λ
)
=
∑
i
=
1
n
log
(
e
−
λ
λ
k
i
k
i
!
)
=
−
n
λ
+
(
∑
i
=
1
n
k
i
)
log
(
λ
)
−
∑
i
=
1
n
log
(
k
i
!
)
.
{\displaystyle {\begin{aligned}L(\lambda )&=\log \prod _{i=1}^{n}f(k_{i}\mid \lambda )\\&=\sum _{i=1}^{n}\log \!\left({\frac {e^{-\lambda }\lambda ^{k_{i}}}{k_{i}!}}\right)\\&=-n\lambda +\left(\sum _{i=1}^{n}k_{i}\right)\log(\lambda )-\sum _{i=1}^{n}\log(k_{i}!).\end{aligned}}}
對函數L 取相對於λ 的導數並令其等於零:
d
d
λ
L
(
λ
)
=
0
⟺
−
n
+
(
∑
i
=
1
n
k
i
)
1
λ
=
0.
{\displaystyle {\frac {\mathrm {d} }{\mathrm {d} \lambda }}L(\lambda )=0\iff -n+\left(\sum _{i=1}^{n}k_{i}\right){\frac {1}{\lambda }}=0.\!}
解得λ 從而得到一個駐點 (stationary point):
λ
^
M
L
E
=
1
n
∑
i
=
1
n
k
i
.
{\displaystyle {\widehat {\lambda }}_{\mathrm {MLE} }={\frac {1}{n}}\sum _{i=1}^{n}k_{i}.\!}
檢查函數L 的二階導數,發現對所有的λ 與ki 大於零的情況二階導數都為負。因此求得的駐點是對數似然函數L 的極大值點:
∂
2
L
∂
λ
2
=
∑
i
=
1
n
−
λ
−
2
k
i
{\displaystyle {\frac {\partial ^{2}L}{\partial \lambda ^{2}}}=\sum _{i=1}^{n}-\lambda ^{-2}k_{i}}
對某公共汽車站的客流做調查,統計了某天上午10:30到11:47來到候車的乘客情況。假定來到候車的乘客各批(每批可以是1人也可以是多人)是互相獨立發生的。觀察每20秒區間來到候車的乘客批次,共觀察77分鐘*3=231次,共得到230個觀察記錄。其中來到0批、1批、2批、3批、4批及4批以上的觀察記錄分別是100次、81次、34次、9次、6次。使用極大似真估計(MLE),得到
λ
{\displaystyle \lambda }
的估計為(81*1+34*2+9*3+6*4)/231=0.8658。
生成帕松分佈的隨機變數 [ 編輯 ]
一個用來生成隨機帕松分佈的數字(偽隨機數抽樣)的簡單算法,已經由高德納 給出(見下文參考):
algorithm poisson random number (Knuth) :
init :
Let L ← e −λ , k ← 0 and p ← 1.
do :
k ← k + 1.
Generate uniform random number u in [0,1] and let p ← p×u.
while p > L.
return k − 1.
儘管簡單,但複雜度是線性的,在返回的值k ,平均是λ。還有許多其他算法來克服這一點。有些人由Ahrens和Dieter給出,請參閱下面的參考資料。同樣,對於較大的λ值,e-λ 可能導致數值穩定性問題。對於較大λ值的一種解決方案是拒絕採樣 ,另一種是採用帕松分佈的高斯近似。
對於很小的λ值,逆變換取樣簡單而且高效,每個樣本只需要一個均勻隨機數u。直到有超過u 的樣本,才需要檢查累積機率。
algorithm Poisson generator based upon the inversion by sequential search :[1]
init :
Let x ← 0, p ← e −λ , s ← p.
Generate uniform random number u in [0,1].
do :
x ← x + 1.
p ← p * λ / x.
s ← s + p.
while u > s.
return x.
參考文獻 [ 編輯 ]
Guerriero V. Power Law Distribution: Method of Multi-scale Inferential Statistics . Journal of Modern Mathematics Frontier (JMMF). 2012, 1 : 21–28.
Joachim H. Ahrens, Ulrich Dieter. Computer Methods for Sampling from Gamma, Beta, Poisson and Binomial Distributions. Computing. 1974, 12 (3): 223–246. doi:10.1007/BF02293108 .
Joachim H. Ahrens, Ulrich Dieter. Computer Generation of Poisson Deviates. ACM Transactions on Mathematical Software. 1982, 8 (2): 163–179. doi:10.1145/355993.355997 .
Ronald J. Evans, J. Boersma, N. M. Blachman, A. A. Jagers. The Entropy of a Poisson Distribution: Problem 87-6. SIAM Review. 1988, 30 (2): 314–317. doi:10.1137/1030059 .
Donald E. Knuth. Seminumerical Algorithms. The Art of Computer Programming, Volume 2. Addison Wesley . 1969.
有限支集
離散單變數
無限支集
離散單變數
緊支集
連續單變數
半無限區間支集
連續單變數
無限區間支集
連續單變數
可變類型支集
連續單變數
混合連續離散單變數
多元(聯合)
定向
退化 和奇異
族