貝葉斯定理 (英語:Bayes' theorem )是概率論 中的一個定理 ,描述在已知一些條件下,某事件 的發生機率。比如,如果已知某種健康問題與壽命有關,使用貝葉斯定理則可以通過得知某人年齡,來更加準確地計算出某人有某種健康問題的機率。
通常,事件A在事件B已發生的條件下發生的機率,與事件B在事件A已發生的條件下發生的機率是不一樣的。然而,這兩者是有確定的關係的,貝葉斯定理就是這種關係的陳述。貝葉斯公式的一個用途,即透過已知的三個機率而推出第四個機率。貝葉斯定理跟隨機變量 的條件機率 以及邊際機率分布 有關。
作為一個普遍的原理,貝葉斯定理對於所有機率的解釋是有效的。這一定理的主要應用為貝葉斯推斷 ,是推論統計學 中的一種推斷法。這一定理名稱來自於托馬斯·貝葉斯 。
貝葉斯定理的二維可視化圖像,圖中闡釋了事件A、事件B以及他們之間的關係。
貝葉斯定理是關於隨機事件A和B的條件概率 的一則定理。
P
(
A
∣
B
)
=
P
(
A
)
P
(
B
∣
A
)
P
(
B
)
{\displaystyle P(A\mid B)={\frac {P(A)P(B\mid A)}{P(B)}}}
其中
A
{\displaystyle A}
以及
B
{\displaystyle B}
為隨機事件 ,且
P
(
B
)
{\displaystyle P(B)}
不為零。
P
(
A
∣
B
)
{\displaystyle P(A\mid B)}
是指在事件
B
{\displaystyle B}
發生的情況下事件
A
{\displaystyle A}
發生的概率。
在貝葉斯定理中,每個名詞都有約定俗成的名稱:
P
(
A
∣
B
)
{\displaystyle P(A\mid B)}
是已知
B
{\displaystyle B}
發生後,
A
{\displaystyle A}
的條件概率 。也稱作
A
{\displaystyle A}
的事後概率 。
P
(
A
)
{\displaystyle P(A)}
是
A
{\displaystyle A}
的先驗概率 (或邊緣概率 )。其不考慮任何
B
{\displaystyle B}
方面的因素。
P
(
B
∣
A
)
{\displaystyle P(B\mid A)}
是已知
A
{\displaystyle A}
發生後,
B
{\displaystyle B}
的條件概率。也可稱爲
B
{\displaystyle B}
的事後機率。某些文獻又稱其為在特定
B
{\displaystyle B}
時,
A
{\displaystyle A}
的似然性 ,因爲
P
(
B
∣
A
)
=
L
(
A
∣
B
)
{\displaystyle P(B\mid A)=L(A\mid B)}
。
P
(
B
)
{\displaystyle P(B)}
是
B
{\displaystyle B}
的先驗概率 。
按這些術語,貝葉斯定理可表述為:
後驗概率 = (似然性*先驗概率)/標準化常量
也就是說,後驗概率與先驗概率和相似度的乘積成正比。
另外,比例
P
(
B
|
A
)
/
P
(
B
)
{\displaystyle P(B|A)/P(B)}
也有時被稱作標准似然度(standardised likelihood ),貝葉斯定理可表述為:
後驗概率 = 標準似然度*先驗概率
由貝葉斯公式
P
(
θ
|
X
)
=
P
(
θ
)
P
(
X
|
θ
)
P
(
X
)
∝
P
(
θ
)
P
(
X
|
θ
)
{\displaystyle P(\theta |X)={\frac {P(\theta )P(X|\theta )}{P(X)}}\propto P(\theta )P(X|\theta )}
可以看出,這裡面的
θ
{\displaystyle \theta }
是一個隨機變量(因為
θ
{\displaystyle \theta }
有概率
P
(
θ
)
{\displaystyle P(\theta )}
)。因為
P
(
θ
|
X
)
∝
P
(
θ
)
P
(
X
|
θ
)
{\displaystyle P(\theta |X)\propto P(\theta )P(X|\theta )}
,所以這也是貝葉斯估計和極大似然估計的區別所在,極大似然估計中要估計的參數是個一般變量,而貝葉斯估計中要估計的參數是個隨機變量。
根據條件概率 的定義。在事件
B
{\displaystyle B}
發生的條件下事件
A
{\displaystyle A}
發生的概率是[ 1] :
P
(
A
|
B
)
=
P
(
A
∩
B
)
P
(
B
)
{\displaystyle P(A|B)={\frac {P(A\cap B)}{P(B)}}}
其中
A
{\displaystyle A}
與
B
{\displaystyle B}
的聯合概率表示為
P
(
A
∩
B
)
{\displaystyle P(A\cap B)}
或者
P
(
A
,
B
)
{\displaystyle P(A,B)}
或者
P
(
A
B
)
{\displaystyle P(AB)}
。
同樣地,在事件
A
{\displaystyle A}
發生的條件下事件
B
{\displaystyle B}
發生的概率
P
(
B
|
A
)
=
P
(
A
∩
B
)
P
(
A
)
{\displaystyle P(B|A)={\frac {P(A\cap B)}{P(A)}}\!}
整理與合併這兩個方程式,我們可以得到
P
(
A
|
B
)
P
(
B
)
=
P
(
A
∩
B
)
=
P
(
B
|
A
)
P
(
A
)
{\displaystyle P(A|B)\,P(B)=P(A\cap B)=P(B|A)\,P(A)\!}
這個引理有時稱作概率乘法規則。上式兩邊同除以
P
(
B
)
{\displaystyle P(B)}
,若
P
(
B
)
{\displaystyle P(B)}
是非零的,我們可以得到貝葉斯定理:
P
(
A
|
B
)
=
P
(
B
|
A
)
P
(
A
)
P
(
B
)
{\displaystyle P(A|B)={\frac {P(B|A)\,P(A)}{P(B)}}\!}
貝氏定理通常可以再寫成下面的形式:
P
(
B
)
=
P
(
A
∩
B
)
+
P
(
A
C
∩
B
)
=
P
(
B
|
A
)
P
(
A
)
+
P
(
B
|
A
C
)
P
(
A
C
)
{\displaystyle P(B)=P(A\cap B)+P(A^{C}\cap B)=P(B|A)P(A)+P(B|A^{C})P(A^{C})}
,
其中A C 是A的補集 (即非A)。故上式亦可寫成:
P
(
A
|
B
)
=
P
(
B
|
A
)
P
(
A
)
P
(
B
|
A
)
P
(
A
)
+
P
(
B
|
A
C
)
P
(
A
C
)
{\displaystyle P(A|B)={\frac {P(B|A)\,P(A)}{P(B|A)P(A)+P(B|A^{C})P(A^{C})}}\!}
在更一般化的情況,假設{A i }是事件集合裡的部份集合,對於任意的A i ,貝氏定理可用下式表示:
P
(
A
i
|
B
)
=
P
(
B
|
A
i
)
P
(
A
i
)
∑
j
P
(
B
|
A
j
)
P
(
A
j
)
{\displaystyle P(A_{i}|B)={\frac {P(B|A_{i})\,P(A_{i})}{\sum _{j}P(B|A_{j})\,P(A_{j})}}\!}
貝氏定理亦可由相似率 Λ和可能性 O 表示:
O
(
A
|
B
)
=
O
(
A
)
⋅
Λ
(
A
|
B
)
{\displaystyle O(A|B)=O(A)\cdot \Lambda (A|B)}
其中
O
(
A
|
B
)
=
P
(
A
|
B
)
P
(
A
C
|
B
)
{\displaystyle O(A|B)={\frac {P(A|B)}{P(A^{C}|B)}}\!}
定義為B發生時,A發生的可能性(odds );
O
(
A
)
=
P
(
A
)
P
(
A
C
)
{\displaystyle O(A)={\frac {P(A)}{P(A^{C})}}\!}
則是A發生的可能性。相似率(Likelihood ratio)則定義為:
Λ
(
A
|
B
)
=
L
(
A
|
B
)
L
(
A
C
|
B
)
=
P
(
B
|
A
)
P
(
B
|
A
C
)
{\displaystyle \Lambda (A|B)={\frac {L(A|B)}{L(A^{C}|B)}}={\frac {P(B|A)}{P(B|A^{C})}}\!}
貝氏定理亦可用於連續機率分佈。由於概率密度函數 嚴格上並非機率,由機率密度函數導出貝氏定理觀念上較為困難(詳細推導參閱[ 2] )。貝氏定理與機率密度的關係是由求極限的方式建立:
f
(
x
|
y
)
=
f
(
x
,
y
)
f
(
y
)
=
f
(
y
|
x
)
f
(
x
)
f
(
y
)
{\displaystyle f(x|y)={\frac {f(x,y)}{f(y)}}={\frac {f(y|x)\,f(x)}{f(y)}}\!}
全機率定理則有類似的論述:
f
(
x
|
y
)
=
f
(
y
|
x
)
f
(
x
)
∫
−
∞
∞
f
(
y
|
x
)
f
(
x
)
d
x
.
{\displaystyle f(x|y)={\frac {f(y|x)\,f(x)}{\int _{-\infty }^{\infty }f(y|x)\,f(x)\,dx}}.\!}
如同離散的情況,公式中的每項均有名稱。
f (x , y )是X 和Y 的聯合分佈;
f (x |y )是給定Y =y 後,X 的事後分佈;
f (y |x )= L (x |y )是Y =y 後,X 的相似度函數(為x 的函數);
f (x )和f (y )則是X 和Y 的邊際分佈;
f (x )則是X 的事前分佈。
為了方便起見,這裡的f 在這些專有名詞中代表不同的函數(可以由引數的不同判斷之)。
對於變數有二個以上的情況,貝氏定理亦成立。例如:
P
(
A
|
B
,
C
)
=
P
(
A
)
P
(
B
|
A
)
P
(
C
|
A
,
B
)
P
(
B
)
P
(
C
|
B
)
{\displaystyle P(A|B,C)={\frac {P(A)\,P(B|A)\,P(C|A,B)}{P(B)\,P(C|B)}}\!}
這個式子可以由套用多次二個變數的貝氏定理及條件機率 的定義導出:
P
(
A
|
B
,
C
)
=
P
(
A
,
B
,
C
)
P
(
B
,
C
)
=
P
(
A
,
B
,
C
)
P
(
B
)
P
(
C
|
B
)
{\displaystyle P(A|B,C)={\frac {P(A,B,C)}{P(B,C)}}={\frac {P(A,B,C)}{P(B)\,P(C|B)}}}
=
P
(
C
|
A
,
B
)
P
(
A
,
B
)
P
(
B
)
P
(
C
|
B
)
=
P
(
A
)
P
(
B
|
A
)
P
(
C
|
A
,
B
)
P
(
B
)
P
(
C
|
B
)
{\displaystyle ={\frac {P(C|A,B)\,P(A,B)}{P(B)\,P(C|B)}}={\frac {P(A)\,P(B|A)\,P(C|A,B)}{P(B)\,P(C|B)}}}
一般化的方法則是利用聯合機率 去分解待求的條件機率,並對不加以探討的變數積分(意即對欲探討的變數計算邊緣機率)。取決於不同的分解形式,可以證明某些積分必為1,因此分解形式可被簡化。利用這個性質,貝氏定理的計算量可能可以大幅下降。貝氏網路 為此方法的一個例子,貝氏網路 指定數個變數的聯合機率分佈 的分解型式,該機率分佈滿足下述條件:當其他變數的條件機率給定時,該變數的條件機率為一簡單型式。
下面展示貝葉斯定理在檢測吸毒者時的應用。假設一個常規的檢測結果的靈敏度和特異度 均為99%,即吸毒者每次檢測呈陽性(+)的概率為99%。而不吸毒者每次檢測呈陰性(-)的概率為99%。從檢測結果的概率來看,檢測結果是比較準確的,但是貝葉斯定理卻可以揭示一個潛在的問題。假設某公司對全體雇員進行吸毒檢測,已知0.5%的雇員吸毒。請問每位檢測結果呈陽性的雇員吸毒的概率有多高?
令「D」為雇員吸毒事件,「N」為雇員不吸毒事件,「+」為檢測呈陽性事件。可得
P(D)代表雇員吸毒的概率,不考慮其他情況,該值為0.005。因為公司的預先統計表明該公司的雇員中有0.5%的人吸食毒品,所以這個值就是D的先驗概率 。
P(N)代表雇員不吸毒的概率,顯然,該值為0.995,也就是1-P(D)。
P(+|D)代表吸毒者被驗出為陽性的概率,這是一個條件概率 ,由於陽性檢測準確性是99%,因此該值為0.99。
P(+|N)代表不吸毒者被驗出為陽性的概率,也就是出錯檢測的概率,該值為0.01。因為對於不吸毒者,其檢測為陰性的概率為99%,因此,其被誤檢測成陽性的概率為1 - 0.99 = 0.01。
P(+)代表不考慮其他因素的影響的陽性檢出率,白話來說,即該公司有多少比例的檢測結果為陽性。該值為0.0149或者1.49%。我們可以通過全概率公式 計算得到:此概率 = 身爲吸毒者的概率 x 吸毒被驗出陽性的概率(0.5% x 99% = 0.495%) + 身爲不吸毒者的概率 x 不吸毒卻被驗出陽性的概率(99.5% x 1% = 0.995%)。P(+)=0.0149是檢測呈陽性的先驗概率 。用數學公式描述為:
P
(
+
)
=
P
(
+
∩
D
)
+
P
(
+
∩
N
)
=
P
(
+
|
D
)
P
(
D
)
+
P
(
+
|
N
)
P
(
N
)
{\displaystyle P(+)=P(+\cap D)+P(+\cap N)=P(+|D)P(D)+P(+|N)P(N)}
根據上述描述,我們可以計算某人檢測呈陽性時確實吸毒的條件概率P(D|+):
P
(
D
|
+
)
=
P
(
+
|
D
)
P
(
D
)
P
(
+
)
=
P
(
+
|
D
)
P
(
D
)
P
(
+
|
D
)
P
(
D
)
+
P
(
+
|
N
)
P
(
N
)
=
0.99
×
0.005
0.99
×
0.005
+
0.01
×
0.995
=
0.3322.
{\displaystyle {\begin{aligned}P(D|+)&={\frac {P(+|D)P(D)}{P(+)}}\\&={\frac {P(+|D)P(D)}{P(+|D)P(D)+P(+|N)P(N)}}\\&={\frac {0.99\times 0.005}{0.99\times 0.005+0.01\times 0.995}}\\&=0.3322.\end{aligned}}}
儘管吸毒檢測的準確率高達99%,但貝葉斯定理告訴我們:如果某人檢測呈陽性,其吸毒的概率只有大約33%,不吸毒的可能性比較大。假陽性高,則檢測的結果不可靠。這是因爲該公司不吸毒的人數遠遠大於吸毒人數,所以即使不吸毒者被誤檢為陽性的概率僅爲1%,其實際被誤檢人數還是很龐大。舉例來說,若該公司總共有1000人(其中5人吸毒,995人不吸),不吸毒的人被檢測出陽性的人數有大約10人(1% x 995),而吸毒被驗出陽性的人數有5人(99% x 5),總共15人被驗出陽性(10 + 5)。在這15人裏面,只有約33%的人是真正有吸毒。所以貝氏定理可以揭露出此檢測在這個案例中的不可靠。
同時,也因爲不可靠的主因是不吸毒卻被誤檢陽性的人數遠多於吸毒被檢測出來的人數(上述例子中10人 > 5 人),所以即使陽性檢測靈敏度能到100%(即只要吸毒一定驗出陽性),檢測結果陽性的員工,真正吸毒的概率
P
(
D
|
+
)
{\displaystyle P(D|+)}
也只會提高到約33.4%。但如果靈敏度仍然是99%,而特異度卻提高到99.5%(即不吸毒的人中,約0.5%會被誤檢為陽性),則檢測結果陽性的員工,真正吸毒的概率可以提高到49.9%。
基於貝葉斯定理:即使100%的胰腺癌症患者都有某症狀,而某人有同樣的症狀,絕對不代表該人有100%的概率得胰腺癌,還需要考慮先驗概率,假設胰腺癌的發病率是十萬分之一,而全球有同樣症狀的人有萬分之一,則此人得胰腺癌的概率只有十分之一,90%的可能是是假陽性。
基於貝葉斯定理:假設100%的不良種子都表現A性狀,而種子表現A性狀,並不代表此種子100%是不良種子,還需要考慮先驗概率,假設一共有6萬顆不良種子,在種子中的比例是十萬分之一(假設總共有60億顆種子),假設所有種子中有1/3表現A性狀(即20億顆種子表現A性狀),則此種子為不良種子的概率只有十萬分之三。
^ Kenneth H. Rosen. Discrete Mathematics and its Applications 7th edition. 2012: 456. ISBN 978-0-07-338309-5 (英語) .
^ Papoulis A.(1984). Probability, Random Variables, and Stochastic Processes, 2nd edition. Section 7.3. New York: McGraw-Hill.