狄利克雷分布
機率密度函數
參數
K
≥
2
{\displaystyle K\geq 2}
分類數 (整數 )
α
1
,
…
,
α
K
{\displaystyle \alpha _{1},\ldots ,\alpha _{K}}
concentration parameters ,
α
i
>
0
{\displaystyle \alpha _{i}>0}
值域
x
1
,
…
,
x
K
{\displaystyle x_{1},\ldots ,x_{K}}
,
x
i
∈
(
0
,
1
)
{\displaystyle x_{i}\in (0,1)}
,
∑
i
=
1
K
x
i
=
1
{\displaystyle \sum _{i=1}^{K}x_{i}=1}
機率密度函數
1
B
(
α
)
∏
i
=
1
K
x
i
α
i
−
1
{\displaystyle {\frac {1}{\mathrm {B} ({\boldsymbol {\alpha }})}}\prod _{i=1}^{K}x_{i}^{\alpha _{i}-1}}
B
(
α
)
=
∏
i
=
1
K
Γ
(
α
i
)
Γ
(
∑
i
=
1
K
α
i
)
{\displaystyle \mathrm {B} ({\boldsymbol {\alpha }})={\frac {\prod _{i=1}^{K}\Gamma (\alpha _{i})}{\Gamma {\bigl (}\sum _{i=1}^{K}\alpha _{i}{\bigr )}}}}
α
=
(
α
1
,
…
,
α
K
)
{\displaystyle {\boldsymbol {\alpha }}=(\alpha _{1},\ldots ,\alpha _{K})}
期望值
E
[
X
i
]
=
α
i
∑
k
α
k
{\displaystyle \operatorname {E} [X_{i}]={\frac {\alpha _{i}}{\sum _{k}\alpha _{k}}}}
E
[
ln
X
i
]
=
ψ
(
α
i
)
−
ψ
(
∑
k
α
k
)
{\displaystyle \operatorname {E} [\ln X_{i}]=\psi (\alpha _{i})-\psi (\textstyle \sum _{k}\alpha _{k})}
(試看 digamma function ) 眾數
x
i
=
α
i
−
1
∑
k
=
1
K
α
k
−
K
,
α
i
>
1.
{\displaystyle x_{i}={\frac {\alpha _{i}-1}{\sum _{k=1}^{K}\alpha _{k}-K}},\quad \alpha _{i}>1.}
變異數
Var
[
X
i
]
=
α
~
i
(
1
−
α
~
i
)
α
¯
+
1
,
{\displaystyle \operatorname {Var} [X_{i}]={\frac {{\tilde {\alpha }}_{i}(1-{\tilde {\alpha }}_{i})}{{\bar {\alpha }}+1}},}
其中
α
~
i
=
α
i
∑
i
=
1
K
α
i
{\displaystyle {\tilde {\alpha }}_{i}={\frac {\alpha _{i}}{\sum _{i=1}^{K}\alpha _{i}}}}
而且
α
¯
=
∑
i
=
1
K
α
i
{\displaystyle {\bar {\alpha }}=\sum _{i=1}^{K}\alpha _{i}}
Cov
[
X
i
,
X
j
]
=
−
α
~
i
α
~
j
α
¯
+
1
(
i
≠
j
)
{\displaystyle \operatorname {Cov} [X_{i},X_{j}]={\frac {-{\tilde {\alpha }}_{i}{\tilde {\alpha }}_{j}}{{\bar {\alpha }}+1}}~~(i\neq j)}
熵
H
(
X
)
=
log
B
(
α
)
+
(
α
0
−
K
)
ψ
(
α
0
)
−
∑
j
=
1
K
(
α
j
−
1
)
ψ
(
α
j
)
{\displaystyle H(X)=\log \mathrm {B} (\alpha )+(\alpha _{0}-K)\psi (\alpha _{0})-\sum _{j=1}^{K}(\alpha _{j}-1)\psi (\alpha _{j})}
狄利克雷分布是一組連續多變量概率分布,是多變量普遍化的Β分布 。為了紀念德國數學家約翰·彼得·古斯塔夫·勒熱納·狄利克雷 (Peter Gustav Lejeune Dirichlet)而命名。狄利克雷分布常作為貝葉斯統計的先驗概率 。當狄利克雷分布維度趨向無限時,這過程便稱為狄利克雷過程 (Dirichlet process)。
狄利克雷分布奠定了狄利克雷過程的基礎,被廣泛應用於自然語言處理 特別是主題模型 (topic model)的研究。
此圖展示了當K =3、參數α 從α =(0.3, 0.3, 0.3)變化到(2.0, 2.0, 2.0)時,密度函數取對數後的變化。
維度K ≥ 2的狄利克雷分布在參數α 1 , ..., α K > 0上、基於歐幾里得空間 R K-1 里的勒貝格測度 有個概率密度函數,定義為:
f
(
x
1
,
…
,
x
K
;
α
1
,
…
,
α
K
)
=
1
B
(
α
)
∏
i
=
1
K
x
i
α
i
−
1
{\displaystyle f(x_{1},\dots ,x_{K};\alpha _{1},\dots ,\alpha _{K})={\frac {1}{\mathrm {B} (\alpha )}}\prod _{i=1}^{K}x_{i}^{\alpha _{i}-1}}
其中
x
{\displaystyle {\boldsymbol {x}}}
滿足
∑
i
=
1
K
x
i
=
1
{\displaystyle \sum _{i=1}^{K}x_{i}=1}
,同時對於任意
i
∈
{
1
,
…
,
K
}
{\displaystyle i\in \{1,\dots ,K\}}
,都有
x
i
≥
0
{\displaystyle x_{i}\geq 0}
。即
x
{\displaystyle {\boldsymbol {x}}}
在(K − 1)維的單純形 開集 上密度為0。
歸一化衡量B(α) 是多項Β函數 ,可以用Γ函數 (gamma function)表示:
B
(
α
)
=
∏
i
=
1
K
Γ
(
α
i
)
Γ
(
∑
i
=
1
K
α
i
)
,
α
=
(
α
1
,
…
,
α
K
)
.
{\displaystyle \mathrm {B} (\alpha )={\frac {\prod _{i=1}^{K}\Gamma (\alpha _{i})}{\Gamma {\bigl (}\sum _{i=1}^{K}\alpha _{i}{\bigr )}}},\qquad \alpha =(\alpha _{1},\dots ,\alpha _{K}).}