条件概率

维基百科,自由的百科全书
跳转至: 导航搜索

本文定义了表征两个或者多个随机变量概率分布特点的术语。

条件概率就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为PA|B),读作“在B条件下A的概率”。

联合概率表示两个事件共同发生的概率。AB的联合概率表示为P(A \cap B)或者P(A, B)

边缘概率是某个事件发生的概率。边缘概率是這樣得到的:在聯合概率中,把最終結果中不需要的那些事件合并成其事件的全概率而消失(對离散隨机變量用求和得全概率,對連續隨机變量用積分得全概率)。這稱為邊緣化marginalization)。A的边缘概率表示为PA),B的边缘概率表示为PB)。

需要注意的是,在这些定义中AB之间不一定有因果或者时间顺序关系。A可能会先于B发生,也可能相反,也可能二者同时发生。A可能会导致B的发生,也可能相反,也可能二者之间根本就没有因果关系。

例如考虑一些可能是新的信息的概率条件性可以通过贝叶斯定理实现。

定义[编辑]

在同一个样本空间Ω中的事件或者子集A与B,如果随机从Ω中选出的一个元素属于B,那么这个随机选择的元素还属于A的概率就定义为在B的前提下A的条件概率。从这个定义中,我们可以得出

P(A|B) = |A∩B|/|B|

分子、分母都除以|Ω|得到

P(A|B) = \frac{P(A \cap B)}{P(B)}

有时候也称为:后验概率

统计独立性[编辑]

当且仅当两个随机事件AB满足

P(A \cap B) \ = \ P(A) P(B)

的时候,它们才是统计独立的,这样联合概率可以表示为各自概率的简单乘积。

同样,对于两个独立事件AB

P(A|B) \ = \ P(A)

以及

P(B|A) \ = \ P(B)

换句话说,如果AB是相互独立的,那么AB这个前提下的条件概率就是A自身的概率;同样,BA的前提下的条件概率就是B自身的概率。

互斥性[编辑]

当且仅当AB满足

P(A \cap B) = 0

P(A) \ne 0P(B) \ne 0

的时候,AB互斥的。

因此,

P(A\mid B) = 0
P(B\mid A) = 0

换句话说,如果B已经发生,由于A不能B在同一场合下发生,那么A发生的概率为零;同样,如果A已经发生,那么B发生的概率为零。

其它[编辑]

  • 如果事件B的概率P(B) > 0,那么Q(A) = P(A|B)在所有事件A上所定义的函数Q就是概率测度
  • 如果P(B)=0P(A|B)没有定义。
  • 条件概率可以用决策树进行计算。

形式定义[编辑]

考虑概率空间Ω(S, σ(S)),其中σ(S)是集S上的σ代数,Ω上对应于随机变量X的概率测度(可以理解为概率分布)为PX;又A∈σ(S),PX(A)≥0(这里可以理解为事件A,A不是零测集)。则∀E∈σ(S),可以定义集函数PX|A如下:

PX|A(E)=PX(A∩E)/PX(E)。

易知PX|A也是Ω上的概率测度,此测度称为X在A下的条件测度(条件概率分布)。

独立性:设A,B∈σ(S),称A,B在概率测度P下为相互独立的,若P(A∩E)=P(A)P(E)。

条件概率谬论[编辑]

条件概率的谬论是假设PA|B)大致等于PB|A)。数学家John Allen Paulos在他的《数学盲》一书中指出医生、律师以及其他受过很好教育的非统计学家经常会犯这样的错误。这种错误可以通过用实数而不是概率来描述数据的方法来避免。

PA|B)與PB|A)的關係如下所示:

P(B|A) = P(A|B) \frac{P(B)}{P(A)}.

下面是一個虛構但寫實的例子,PA|B)與PB|A)的差距可能令人驚訝,同時也相當明顯。

若想分辨某些個體是否有重大疾病,以便早期治療,我們可能會對一大群人進行檢驗。雖然其益處明顯可見,但同時,檢驗行為有一個地方引起爭議,就是有檢出假陽性的結果的可能:若有個未得疾病的人,卻在初檢時被誤檢為得病,他可能會感到苦惱煩悶,一直持續到更詳細的檢測顯示他並未得病為止。而且就算在告知他其實是健康的人後,也可能因此對他的人生有負面影響。

這個問題的重要性,最適合用條件機率的觀點來解釋。

假設人群中有1%的人罹患此疾病,而其他人是健康的。我們隨機選出任一個體,並將患病以disease、健康以well表示:

P(\text{disease})=1%=0.01P(\text{well})=99%=0.99

假設檢驗動作實施在未患病的人身上時,有1%的機率其結果為假陽性(陽性以positive表示)。意即:

P(\text{positive}|\text{well})=1%,而且P(\text{negative}|\text{well})=99%

最後,假設檢驗動作實施在患病的人身上時,有1%的機率其結果為假陰性(陰性以negative表示)。意即:

P(\text{negative}|\text{disease})=1%P(\text{positive}|\text{disease})=99%

現在,由計算可知:

P(\text{well}\cap\text{negative})=P(\text{well})\times P(\text{negative}|\text{well})=99%\times99%=98.01%

是整群人中健康、且測定為陰性者的比率。

P(\text{disease}\cap\text{positive})=P(\text{disease})\times P(\text{positive}|\text{disease})=1%\times99%=0.99%

是整群人中得病、且測定為陽性者的比率。

P(\text{well}\cap\text{positive})=P(\text{well})\times P(\text{positive}|\text{well})=99%\times1%=0.99%

是整群人中被測定為假陽性者的比率。

P(\text{disease}\cap\text{negative})=P(\text{disease})\times P(\text{negative}|\text{disease})=1%\times1%=0.01%

是整群人中被測定為假陰性者的比率。

進一步得出:

P(\text{positive})=P(\text{well}\cap\text{positive})+P(\text{disease}\cap\text{positive})=0.99%+0.99%=1.98%

是整群人中被測出為陽性者的比率。

\scriptstyle P(\text{disease}|\text{positive})=\frac{P(\text{disease}\cap\text{positive})}{P(\text{positive})}=\frac{0.99%}{1.98%}=50%

是某人被測出為陽性時,實際上真的得了病的機率。

這個例子裡面,我們很輕易可以看出P(positive|disease)=99%與P(disease|positive)=50%的差距:前者是你得了病,而被檢出為陽性的條件機率;後者是你被檢出為陽性,而你實際上真得了病的條件機率。由我們在本例中所選的數字,最終結果可能令人難以接受:被測定為陽性者,其中的半數實際上是假陽性。

参见[编辑]