概率论

维基百科,自由的百科全书
跳转至: 导航搜索
典型的概率問題:「擲一顆公正的骰子,出現3點的概率是多少?」

概率論是研究隨機性或不確定性等現象的數學。更精確地說,概率論是用來模擬實驗在同一環境下會產生不同結果的情況。典型的随机實验有掷骰子、扔硬币、抽扑克牌以及輪盤游戏等。

數學家和精算師認為概率是在0至1閉區間内的數字,指定給一發生與失敗是隨機的「事件」。概率P(A)根據概率公理來指定給事件A

一事件A在一事件B確定發生後會發生的概率稱為B給之A條件概率;其數值為{P(B \cap A) \over P(A)}(當P(A)不等於零時)。若B給之A的條件概率和A的概率相同時,則稱AB獨立事件。且AB的此一關係為對稱的,這可以由一同價敘述:「P(A \cap B) = P(A)P(B),當AB為獨立事件時。」中看出。

概率論中的兩個重要概念為隨機變數和隨機變數的概率分佈兩種。

生活例子[编辑]

人們對概率總是有一點觸摸不清的感覺,而事實上也有很多看似奇異的結果:

  • 1; 六合彩:在六合彩(49選6)中,一共有13,983,816種可能性(參閱組合數學),

如果每周都買一組不相同的號,一年有52周,則在實驗越多次(一直買直到中獎算一次)之後,平均中獎所花的時間會越接近\frac{13983816}{52}=268919。 事實上,即使每周買相同的號,獲得頭獎的概率也是相同的。 但假設每周實際中獎的組合都不重複,268919年的算術推論是正確的,這說明概率和其他數學理論可能導出不同的結論。

  • 2; 六合彩:仍然是六合彩。買5, 17, 19, 24, 33, 49中奬概率高還是買1,2,3,4,5,6的中奬概率高?

古典概率論說:一樣。
但實際上機械彩球製造上都有些小的差異,所以每組概率不一定完全相同,但必須累積多期開獎結果後才看得出來。

  • 3; 生日悖論:在一個足球場上有23個人(2×11個運動員和1個裁判員),

不可思議的是,在這23人當中至少有兩個人的生日是在同一天的概率要大于50%。 如果這23人都沒有相同的生日也不違反概率,只是小于50%。

  • 4; 輪盤遊戲:在遊戲中玩家可能認為,在連續出現多次紅色後,出現黑色的概率會越來越大。

這種判斷也是錯誤的,即出現黑色的概率每次是相等的,因為球本身並沒有「記憶」, 它不會意識到以前都發生了什麼,其概率始終是\frac{18}{37}
但輪盤的前後期開獎數字形成時間序列(可能存在自迴歸模型)。

  • 5; 贏取電視節目裡的名車:在參賽者面前有三扇關閉的門,其中只有一扇後面有名車,而其餘的後面是山羊。

遊戲規則是,參賽者先選取一扇門,但在他打開之前,主持人在其餘兩扇門中打開了一扇有山羊的門, 並詢問參賽者是否改變主意選擇另一扇門,以使贏得名車的概率變大。

正確的分析結果是,假如不管開始哪一扇門被選,主持人都打開其餘兩扇門中有山羊的那一扇並詢問參賽者是否改變主意, 則改變主意會使贏得汽車的概率增加一倍;(「標準」的三門問題情況。)


假如主持人只在有名車那扇門被選中時勸誘參賽者打開其它門,則改變主意必輸。(資訊不對稱)

历史[编辑]

作为数学统计基础的概率论的创始人分别是法国数学家帕斯卡费马,其可追溯到公元17世纪。当时的法国宫廷贵族里盛行着掷骰子游戏,游戏规则是玩家连续掷4次骰子,如果其中没有6点出现,玩家赢,如果出现一次6点,则庄家(相当于现在的赌场)赢。按照这一游戏规则,从长期来看,庄家扮演赢家的角色,而玩家大部分时间是输家,因为庄家总是要靠此为生的,因此当时人们也就接受了这种现象。

后来为了使游戏更刺激,游戏规则发生了些许变化,玩家这回用2个骰子连续掷24次,不同时出现2个6点,玩家赢,否则庄家赢。当时人们普遍认为,2次出现6点的概率是一次出现6点的概率的1 / 6,因此6倍于前一种规则的次数,也既是24次赢或输的概率与以前是相等的。然而事实却並非如此,从长期来看,这回庄家处于输家的状态,于是他们去请教当时的数学家帕斯卡,求助其对这种现象作出解释。

其他对概率论的发展作出重要贡献的人还有荷兰物理、数学家惠更斯,瑞士物理、数学家伯努利,法国数学家棣莫弗,法国数学、天文学家拉普拉斯,德国数学家高斯,法国物理、数学家泊松,意大利数学、医学家卡尔达诺以及苏联数学家柯爾莫哥洛夫

事件[编辑]

单位事件、事件空间、随机事件[编辑]

在一次随机试验中可能发生的不能再细分的结果被称为基本事件,或者称为单位事件,用 E 表示。在随机试验中可能发生的所有单位事件的集合称为事件空间,用 S 来表示。例如在一次掷骰子的随机试验中,如果用获得的点数来表示单位事件,那么一共可能出现 6 个单位事件,则事件空间可以表示为 S = \{ 1,2,3,4,5,6 \}

上面的事件空间是由可数有限单位事件组成,事实上还存在着由可数无限以及不可数单位事件组成的事件空间,比如在一次获得正面朝上就停止的随机掷硬币试验中,其事件空间由可数无限单位事件组成,表示为:S={ 正,反正,反反正,反反反正,反反反反正,···},注意到在这个例子中"反反反正"是单位事件。将两根筷子随意扔向桌面,其静止后所形成的交角假设为 \alpha,这个随机试验的事件空间的组成可以表示为 S= \{ \alpha | 0^\circ \le \alpha < 180^\circ \}

随机事件是事件空间 S 的子集,它由事件空间 S 中的单位元素构成,用大写字母 A,B,C\cdots 表示。例如在掷两个骰子的随机试验中,设随机事件 A = “获得的点数和大于10”,则 A 可以由下面 3 个单位事件组成:A = \{ ( 5,6 ),( 6,5 ),( 6,6 ) \}

如果在随机试验中事件空间中的所有可能的单位事件都发生,这个事件被称为 必然事件,表示为 S \subset S ;相应的如果事件空间里不包含任何一个单位事件,则称为不可能事件,表示为 \varnothing \subset S

事件的计算[编辑]

因为事件在一定程度上是以集合的含义定义的,因此可以把集合计算方法直接应用于事件的计算,也就是说,在计算过程中,可以把事件当作集合来对待。

Komplement3.png
A 的补集
不属于 A 的事件发生
Vereinigung.png
并集 AB
或者A 或者 B 或者 A, B 同时发生
Durchschnitt.png
交集 AB
事件 A,B 同时发生
Differenz.png
差集 A \ B
不属于 BA 事件发生
Disjunkte.png
空集 AB = ∅
A,B 事件不同时发生
Impliziert.png
子集 BA
B 发生,则 A 也一定发生

在轮盘游戏中假设 A 代表事件「球落在红色区域」,B 代表事件"球落在黑色区域",因为事件 AB 没有共同的单位事件,因此可表示为

A\cap B=\varnothing

注意到事件 AB 并不是互补的关系,因为在整个事件空间 S 中还有一个单位事件「零」,其即不是红色也不是黑色,而是绿色,因此 A,B 的补集应该分别表示如下:

\bar{A}=S\setminus A=B\cup \left \{ 0 \right \}
\bar{B}=S\setminus B=A\cup \left \{ 0 \right \}

概率的定义[编辑]

传统概率 (古典機率)( 拉普拉斯概率 )[编辑]

传统概率的定义是由法国数学家拉普拉斯 ( Laplace ) 提出的。如果一个随机试验所包含的单位事件是有限的,且每个单位事件发生的可能性均相等,则这个随机试验叫做拉普拉斯试验。在拉普拉斯试验中,事件 A 在事件空间 S 中的概率 P(A) 为:

Begriff.png

例如,在一次同时掷一个硬币和一个骰子的随机试验中,假设事件 A 为获得国徽面且点数大于 4 ,那么事件 A 的概率应该有如下计算方法:S= { ( 国徽,1 点 ),( 数字,1 点 ),( 国徽,2 点 ),( 数字,2 点 ),( 国徽,3 点 ),( 数字,3 点 ),( 国徽,4 点 ),( 数字,4 点 ),( 国徽,5 点 ),( 数字,5 点 ),( 国徽,6 点 ),( 数字,6 点 ) },A={( 国徽,5 点 ),( 国徽,6 点 )},按照拉普拉斯定义,A 的概率为,

P(A)=\frac{2}{12}=\frac{1}{6}

注意到在拉普拉斯试验中存在着若干的疑问,在现实中是否存在着其单位事件的概率具有精确相同的概率值的試驗? 因为我们不知道,硬币以及骰子是否完美,即骰子制造的是否均匀,其重心是否位于正中心,以及轮盘是否倾向于某一个数字。 尽管如此,传统概率在实践中被广泛应用于确定事件的概率值,其理论根据是: 如果没有足够的论据来证明一个事件的概率大于另一个事件的概率,那么可以认为这两个事件的概率值相等

如果仔细观察这个定义会发现拉普拉斯用概率解释了概率,定义中用了相同的可能性 ( 原文是 également possible )一词,其实指的就是"相同的概率"。这个定义也并没有说出,到底什么是概率,以及如何用数字来确定概率。在现实生活中也有一系列问题,无论如何不能用传统概率定义来解释,比如,人寿保险公司无法确定一个 50 岁的人在下一年将死去的概率。

统计概率[编辑]

继传统概率论之后,英国逻辑学約翰·維恩和奥地利数学家理查德提出建立在频率理论基础上的统计概率。他们认为,获得一个事件的概率值的唯一方法是通过对该事件进行 100 次,1000 次或者甚至 10000 次的前后相互独立的 n 次随机试验,针对每次试验均记录下绝对频率值和相对频率h_n (A),随着试验次数 n 的增加,会出现如下事实,即相对频率值会趋于稳定,它在一个特定的值上下浮动,也即是说存在着一个极限值 P(A),相对频率值趋向于这个极限值。这个极限值被称为统计概率,表示为:

P(A)=\lim_{n \to \infty}h_n (A)

例如,若想知道在一次掷骰子的随机试验中获得 6 点的概率值可以对其进行 3000 次前后独立的扔掷试验,在每一次试验后记录下出现 6 点的次数,然后通过计算相对频率值可以得到趋向于某一个数的统计概率值。

扔掷数 获得 6 点的绝对频率 获得 6 点的相对频率
1 1 1.00000
2 1 0.50000
3 1 0.33333
4 1 0.25000
5 2 0.40000
10 2 0.20000
20 5 0.25000
100 12 0.12000
200 39 0.19500
300 46 0.15333
400 72 0.18000
500 76 0.15200
600 102 0.17000
700 120 0.17143
1000 170 0.17000
2000 343 0.17150
3000 560 0.16867

上面提到的这个有关相对频率的经验规律是大数定律在现实生活中的反映,大数定律是初等概率论的基础。统计概率在今天的实践中依然具有重要意义,特别是在初等概率论及数理统计等学科中。

现代概率论[编辑]

与初等概率论相对的,是“现代概率论”。因“测度论”的研究与发展,概率论得以建立公理化系统。 一些曾经无法用初等概率论解释的概念因此得以用公理化的语言进行解释。 可以说现代概率论以测度论为理论基础终于得以完善,完成了其现代化进程。

概率公理[编辑]

如果一个函数P:S\to \R, \ A\mapsto P(A)指定给每一个事件空间 S 中的事件 A 一个实数 P(A),并且其满足下面的 3 个公理,那么函数 P 叫做概率函数,相应的 P(A) 叫做事件 A 的概率。

公理 1: 0\le P(A) \le 1 \ (A \in S)
事件 A 的概率 P(A) 是一个0与1之间(包含0与1)的非负实数。
公理 2: P(S)=1
事件空間的概率值为 1 。
公理 3: P(A\cup B)=P(A)+P(B),如果 A\cap B=\varnothing
互斥事件的加法法则。这里需注意:公理3可以推广到可数个互斥事件的聯集

概率的计算[编辑]

需要提及的是下面将要介绍的 9 个计算概率的定理与上面已经提及的事件的计算没有关系,所有关于概率的定理均由概率的 3 个公理得来,同时适用于包括拉普拉斯概率和统计概率在内的所有概率理论。

定理 1 (互补法则)[编辑]

A 互补事件的概率始终是

P(\bar{A})=1-P(A), \in S
Komplement3.png

证明:
事件 A\overline {A} 是互补关系,由公理 3 和公理 2 可得

P(A)+P(\bar{A})=P(S)=1
\Rightarrow P(\bar{A})=1-P(A)


利用互补法则,可以解决下面这个问题,在两次连续旋转的轮盘游戏中,至少有一次是红色的概率是多少?
第一次旋转红色不出现的概率是 19/37 ,按照乘法法则,第二次也不出现红色的概率是 (19/37)2 = 0.2637,因此在这里互补概率就是指在两次连续旋转中至少有一次是红色的概率,
 P   = 1 -  \left( \frac{19}{37} \right)^2 = 0.7363

定理 2[编辑]

不可能事件的概率为零:

P(\varnothing)=0

证明:

\varnothingS 是互补事件,按照公理 2 有

P(S)=1,再根据上面的定理 1 得到
P(\varnothing)=1-1=0

注意:此定理的逆命题不成立,即概率为零的事件不一定是不可能事件。

例子:按照欧几里得几何的定义和几何概型的计算公式,飞镖飞中靶中一点或一条线的概率为零(点、线的面积为零),但是这不是不可能事件。

同理概率为1的事件不一定是必然事件。

定理 3[编辑]

如果若干事件 A_1,A_2,\cdots A_n \in S 每两两之间是空集关系,那么这些所有事件集合的概率等于单个事件的概率的和。

P(A_1\cup \cdots \cup A_n)=\sum_{j=1}^n P(A_j)

注意针对这一定理有效性的决定因素是 A_1 \cdots A_n 事件不能同时发生。例如,在一次掷骰子中,得到 5 点或者 6 点的概率是:

P=P(A_5)+P(A_6)=Wuerfel.png = \frac{2}{6} = \frac{1}{3}

定理 4[编辑]

如果事件 AB 是差集关系,则有,

P(A\setminus B)=P(A)-P(A\cap B)
Theorem4.png

证明:

事件 A 由下面两个事件组成:

A\setminus BA\cap B
由公理 3 得,
P(A)=P(A\setminus B)+P(A\cap B)

定理 5 (任意事件加法法则)[编辑]

对于事件空间 S 中的任意两个事件 AB,有如下定理:

P(A \cup B) = P(A) + P(B)  - P(A \cap B)

证明:

事件 A \cup B 由下面三个事件组成:
A\cup B=(A \setminus B)\cup (A\cap B)\cup (B \setminus A)
首先根据定理 4 有:

\begin{array}{lcr}
P(A\setminus B) & = & P(A)-P(A\cap B)\\
P(B\setminus A) & = & P(B)-P(A\cap B)
\end{array}

再根据定理 3 得:


\begin{align}
P(A\cup B) & =P(A\setminus B)+P(A\cap B)+P(B\setminus A)\\
& =P(A)-P(A\cap B)+P(A\cap B)+P(B)-P(A\cap B)\\
& =P(A)+P(B)-P(A\cap B)
\end{align}

例如,在由一共 32 张牌构成的斯卡特扑克牌中随机抽出一张,其或者是"方片"或者是"\mathcal{A}"的概率是多少?

事件 AB 是或者的关系,且可同时发生,就是说抽出的这张牌即可以是"方片",又可以是"\mathcal{A}",AB ( 既发生 A 又发生 B ) 的值是 1 / 32,( 从示意图上也可以看出,即是方片又是\mathcal{A}只有一张,即概率是 1 / 32 ),因此有如下结果:
P(A \cup B) = \frac{8}{32} + \frac{4}{32} - \frac{1}{32} = \frac{11}{32}

注意到公理 3 是定理 5 的特殊情况,即 AB 不同时发生,相应的 P(A∩B)=0。

定理 6 (乘法法则)[编辑]

轮盘游戏示意图 2

事件 AB 同时发生的概率是:

P(A \cap B) = P(A) \cdot P(B \vert A) = P(B) \cdot P(A \vert B)

公式中的 P ( A | B ) 是指在 B 条件下 A 发生的概率,又称作条件概率。回到上面的斯卡特游戏中,在 32 张牌中随机抽出一张,即是方片又是\mathcal{A}的概率是多少呢?现用 P(A) 代表抽出方片的概率,用 P(B) 代表抽出\mathcal{A}的概率,很明显,AB 之间有一定联系,即 A 里包含有 BB 里又包含有 A,在 A 的条件下发生 B 的概率是 P(B | A)=1/8,则有:

P(A \cap B) = P(A) \cdot P(B \vert A) = \frac{8}{32} \cdot\frac{1}{8}=\frac{1}{32}

或者,P(A \cap B) = P(B) \cdot P(A \vert B) = \frac{4}{32} \cdot\frac{1}{4}=\frac{1}{32}
从上面的图中也可以看出,符合条件的只有一张牌,即方片\mathcal{A}

另一个例子,在 32 张斯卡特牌里连续抽两张 ( 第一次抽出的牌不放回去 ),连续得到两个\mathcal{A}的概率是多少呢?
AB 分别为连续发生的这两次事件,我们看到,AB 之间有一定联系,即 B 的概率由于 A 发生了变化,属于条件概率,按照公式有:P(A \cap B) = P(A) \cdot P(B \vert A) = \frac{4}{32} \cdot\frac{3}{31}=\frac{3}{248}

定理 7 (无关事件乘法法则)[编辑]

两个不相关联的事件 AB 同时发生的概率是:

P(A \cap B) = P (A)\cdot P(B)

注意到这个定理实际上是定理 6 (乘法法则) 的特殊情况,如果事件 AB 没有联系,则有 P(A|B)=P(A),以及 P(B|A)=P(B)。现在观察一下轮盘游戏中两次连续的旋转过程,P ( A ) 代表第一次出现红色的概率,P ( B ) 代表第二次出现红色的概率,可以看出,AB 没有关联,利用上面提到的公式,连续两次出现红色的概率为:

P(A \cap B) = \frac{18}{37} \cdot \frac{18}{37}  = 0.2367

忽视这一定理是造成许多玩家失败的根源,普遍认为,经过连续出现若干次红色后,黑色出现的概率会越来越大,事实上两种颜色每次出现的概率是相等的,之前出现的红色与之后出现的黑色之间没有任何联系,因为球本身并没有"记忆",它并不"知道"以前都发生了什么。同理,连续 10 次出现红色的概率为 P=(18/37)10 =0.0007

完全概率[编辑]

n 个事件 H_1,H_2,...H_n 互相间独立,且共同组成整个事件空间 S,即
H_i\cap H_j=\varnothing( i\neq j ) 以及
H_1\cup H_2\cup ...\cup H_n=S
这时 A 的概率可以表示为,

P(A)=\sum_{j=1}^n P(A|H_j)\cdot P(H_j)

证明:

A=(A\cap H_1)\cup (A\cap H_2)\cup \ldots \cup (A\cap H_n)
按照公理 3 ,有
P(A)=P(A\cap H_1)+P(A\cap H_2)+\ldots +P(A\cap H_n)
根据乘法法则,P( A\cap H_j)=P( A | H_j)\cdot P( H_j)
因此有,
P( A )=P( A | H_1) \cdot P( H_1)+\ldots +P( A | H_n) \cdot P( H_n)
P(A)=\sum_{j=1}^n P(A|H_j)\cdot P(H_j)

例如,一个随机试验工具由一个骰子和一个柜子中的三个抽屉组成,抽屉 1 里有 14 个白球和 6 个黑球,抽屉 2 里有 2 个白球和 8 个黑球,抽屉 3 里有 3 个白球和 7 个黑球,试验规则是首先掷骰子,如果获得小于 4 点,则抽屉 1 被选择,如果获得 4 点或者 5 点,则抽屉 2 被选择,其他情况选择抽屉 3 。然后在选择的抽屉里随机抽出一个球,最后抽出的这个球是白球的概率是:

P(白)=P(白|抽1)·P(抽1)+P(白|抽2)·P(抽2)+P(白|抽3)·P(抽3)

=(14/20)·(3/6)+(2/10)·(2/6)+(3/10)·(1/6)
=28/60=0.4667

从例子中可看出,完全概率特别适合于分析具有多层结构的随机试验的情况。

贝叶斯定理[编辑]

贝叶斯定理由英国数学家托马斯·贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照定理 6 的乘法法则,P(A∩B)=P(A)·P(B|A)=P(B)·P(A|B),可以立刻导出贝叶斯定理:

P(A \vert B) = \frac {P(B \vert A) \cdot P(A)} {P(B)}


例如:一座别墅在过去的 20 年里一共发生过 2 次被盗,别墅的主人有一条狗,狗平均每周晚上叫 3 次,在盗贼入侵时狗叫的概率被估计为 0.9,问题是:在狗叫的时候发生入侵的概率是多少?
我们假设 A 事件为狗在晚上叫,B 为盗贼入侵,则 P( A )=3/7 P( B )=2/(20·365.25)=2/7305,P(A | B) = 0.9,按照公式很容易得出结果:
P(B \vert A) = 0.9 \cdot \frac{2}{7305}\cdot\frac{7}{3}=0.0005749486653...

另一个例子,现分别有 AB 两个容器,在容器 A 里分别有 7 个红球和 3 个白球,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是红球,问这个红球是来自容器 A 的概率是多少?

假设已经抽出红球为事件 B,从容器 A 里抽出球为事件 A,则有:P ( B ) = 8 / 20,P ( A ) = 1 / 2,P ( B | A ) = 7 / 10,按照公式,则有:
P(A \vert B) = \frac{7}{10}\cdot\frac{1}{2}\cdot\frac{20}{8}=\frac{7}{8}

概率分布[编辑]

概率论的应用[编辑]

虽然概率论最早产生于17世纪,然而其公理体系只在20世纪的20至30年代才建立起来并得到迅速发展,在过去的半个世纪里概率论在越来越多的新兴领域显示了它的应用性和实用性,例如:物理化学生物医学心理学社会学政治学教育学经济学以及几乎所有的工程学等领域。特别值得一提的是,概率论是今天数理统计的基础,其结果被用做问卷调查的分析资料或者对经济前景进行预测。

参见[编辑]

参考文献[编辑]

  1. (德文) 彼得 缺菲尔 ( Peter Zoefel ):《统计和经济学家》 PEASON Studium 出版社 2003 年 ISBN 3-8273-7062-0
  2. (德文) 约瑟夫 西拉 ( Josef Schira ):《统计理论与企业管理》 PEASON Studium 出版社 2003 年 ISBN 3-8273-7041-8
  3. (德文) 汉斯-底特 黑伯曼 ( Hans-Dieter Hippmann ):《统计学》 SCHAEFFER POESCHEL 出版社 2003 年 ISBN 3-7910-2119-2
  4. (德文) 里波舒尔茨 ( Seymour Lipschutz ):《概率计算-理论和应用》 McGRAW-HILL BOOK COMPANY GmbH 出版社 1980 年 ISBN 0-07-084361-9
  5. (德文) 贝尔等 ( Beyer,Hackel,Pieper,Tiedge )《概率计算和数学统计》 Harri Deutsch 出版社 1980 年 ISBN 3-87144-433-2