條件機率

維基百科,自由的百科全書
前往: 導覽搜尋

本文定義了表徵兩個或者多個隨機變數機率分布特點的術語。

條件機率就是事件A在另外一個事件B已經發生條件下的發生機率。條件機率表示為PA|B),讀作「在B條件下A的機率」。

聯合機率表示兩個事件共同發生的機率。AB的聯合機率表示為P(A \cap B)或者P(A, B)

邊緣機率是某個事件發生的機率。邊緣機率是這樣得到的:在聯合機率中,把最終結果中不需要的那些事件合併成其事件的全機率而消失(對離散隨機變量用求和得全機率,對連續隨機變量用積分得全機率)。這稱為邊緣化marginalization)。A的邊緣機率表示為PA),B的邊緣機率表示為PB)。

需要注意的是,在這些定義中AB之間不一定有因果或者時間順序關係。A可能會先於B發生,也可能相反,也可能二者同時發生。A可能會導致B的發生,也可能相反,也可能二者之間根本就沒有因果關係。

例如考慮一些可能是新的信息的機率條件性可以通過貝葉斯定理實現。

定義[編輯]

在同一個樣本空間Ω中的事件或者子集A與B,如果隨機從Ω中選出的一個元素屬於B,那麼這個隨機選擇的元素還屬於A的機率就定義為在B的前提下A的條件機率。從這個定義中,我們可以得出

P(A|B) = |A∩B|/|B|

分子、分母都除以|Ω|得到

P(A|B) = \frac{P(A \cap B)}{P(B)}

有時候也稱為:後驗機率

統計獨立性[編輯]

若且唯若兩個隨機事件AB滿足

P(A \cap B) \ = \ P(A) P(B)

的時候,它們才是統計獨立的,這樣聯合機率可以表示為各自機率的簡單乘積。

同樣,對於兩個獨立事件AB

P(A|B) \ = \ P(A)

以及

P(B|A) \ = \ P(B)

換句話說,如果AB是相互獨立的,那麼AB這個前提下的條件機率就是A自身的機率;同樣,BA的前提下的條件機率就是B自身的機率。

互斥性[編輯]

若且唯若AB滿足

P(A \cap B) = 0

P(A) \ne 0P(B) \ne 0

的時候,AB互斥的。

因此,

P(A\mid B) = 0
P(B\mid A) = 0

換句話說,如果B已經發生,由於A不能B在同一場合下發生,那麼A發生的機率為零;同樣,如果A已經發生,那麼B發生的機率為零。

其它[編輯]

  • 如果事件B的機率P(B) > 0,那麼Q(A) = P(A|B)在所有事件A上所定義的函數Q就是機率測度
  • 如果P(B)=0P(A|B)沒有定義。
  • 條件機率可以用決策樹進行計算。

形式定義[編輯]

考慮機率空間Ω(S, σ(S)),其中σ(S)是集S上的σ代數,Ω上對應於隨機變數X的機率測度(可以理解為機率分布)為PX;又A∈σ(S),PX(A)≥0(這裡可以理解為事件A,A不是零測集)。則∀E∈σ(S),可以定義集函數PX|A如下:

PX|A(E)=PX(A∩E)/PX(E)。

易知PX|A也是Ω上的機率測度,此測度稱為X在A下的條件測度(條件機率分布)。

獨立性:設A,B∈σ(S),稱A,B在機率測度P下為相互獨立的,若P(A∩E)=P(A)P(E)。

條件機率謬論[編輯]

條件機率的謬論是假設PA|B)大致等於PB|A)。數學家John Allen Paulos在他的《數學盲》一書中指出醫生、律師以及其他受過很好教育的非統計學家經常會犯這樣的錯誤。這種錯誤可以通過用實數而不是機率來描述數據的方法來避免。

PA|B)與PB|A)的關係如下所示:

P(B|A) = P(A|B) \frac{P(B)}{P(A)}.

下面是一個虛構但寫實的例子,PA|B)與PB|A)的差距可能令人驚訝,同時也相當明顯。

若想分辨某些個體是否有重大疾病,以便早期治療,我們可能會對一大群人進行檢驗。雖然其益處明顯可見,但同時,檢驗行為有一個地方引起爭議,就是有檢出假陽性的結果的可能:若有個未得疾病的人,卻在初檢時被誤檢為得病,他可能會感到苦惱煩悶,一直持續到更詳細的檢測顯示他並未得病為止。而且就算在告知他其實是健康的人後,也可能因此對他的人生有負面影響。

這個問題的重要性,最適合用條件機率的觀點來解釋。

假設人群中有1%的人罹患此疾病,而其他人是健康的。我們隨機選出任一個體,並將患病以disease、健康以well表示:

P(\text{disease})=1%=0.01P(\text{well})=99%=0.99

假設檢驗動作實施在未患病的人身上時,有1%的機率其結果為假陽性(陽性以positive表示)。意即:

P(\text{positive}|\text{well})=1%,而且P(\text{negative}|\text{well})=99%

最後,假設檢驗動作實施在患病的人身上時,有1%的機率其結果為假陰性(陰性以negative表示)。意即:

P(\text{negative}|\text{disease})=1%P(\text{positive}|\text{disease})=99%

現在,由計算可知:

P(\text{well}\cap\text{negative})=P(\text{well})\times P(\text{negative}|\text{well})=99%\times99%=98.01%

是整群人中健康、且測定為陰性者的比率。

P(\text{disease}\cap\text{positive})=P(\text{disease})\times P(\text{positive}|\text{disease})=1%\times99%=0.99%

是整群人中得病、且測定為陽性者的比率。

P(\text{well}\cap\text{positive})=P(\text{well})\times P(\text{positive}|\text{well})=99%\times1%=0.99%

是整群人中被測定為假陽性者的比率。

P(\text{disease}\cap\text{negative})=P(\text{disease})\times P(\text{negative}|\text{disease})=1%\times1%=0.01%

是整群人中被測定為假陰性者的比率。

進一步得出:

P(\text{positive})=P(\text{well}\cap\text{positive})+P(\text{disease}\cap\text{positive})=0.99%+0.99%=1.98%

是整群人中被測出為陽性者的比率。

\scriptstyle P(\text{disease}|\text{positive})=\frac{P(\text{disease}\cap\text{positive})}{P(\text{positive})}=\frac{0.99%}{1.98%}=50%

是某人被測出為陽性時,實際上真的得了病的機率。

這個例子裡面,我們很輕易可以看出P(positive|disease)=99%與P(disease|positive)=50%的差距:前者是你得了病,而被檢出為陽性的條件機率;後者是你被檢出為陽性,而你實際上真得了病的條件機率。由我們在本例中所選的數字,最終結果可能令人難以接受:被測定為陽性者,其中的半數實際上是假陽性。

參見[編輯]