機率分布 (英語:probability distribution 、德語:Wahrscheinlichkeitsverteilung ),或簡稱分布 ,亦稱機率分配 、分配 ,是概率論 的一個概念。
「Probability distribution」的各地常用名稱 中国大陸 概率分布 臺灣 機率分布、機率分配 港澳 概率分佈 日本、韓國漢字 確率分布
使用時可以有以下兩種含義:
廣義地,它指稱隨機變量的概率性質--當我們說概率空間
(
Ω
,
F
,
P
)
{\displaystyle (\Omega ,{\mathcal {F}},\mathbb {P} )}
中的兩個隨機變量 X 和Y 具有同樣的分布時,我們是無法用概率
P
{\displaystyle \mathbb {P} }
來區別他們的。換言之:
稱X 和Y 為同分布的隨機變量,當且僅當對任意事件
A
∈
F
{\displaystyle A\in {\mathcal {F}}}
,有
P
(
X
∈
A
)
=
P
(
Y
∈
A
)
{\displaystyle \mathbb {P} (X\in A)=\mathbb {P} (Y\in A)}
成立。
但是,不能認為同分布的隨機變量是相同的隨機變量。事實上即使X 與Y 同分布,也可以没有任何點ω使得X(ω)=Y(ω) 。在這個意義下,可以把隨機變量分類,每一類稱作一個分布,其中的所有隨機變量都同分布。用更簡要的語言來說,同分布是一種等價關係 ,每一個等價類 就是一個分布。需注意的是,通常談到的離散分布 、均勻分布 、伯努利分布 、正態分布 、泊松分布 等,都是指各種類型的分布,而不能視作一個分布。
狹義地,它是指隨機變量的概率分布函數 。設X 是樣本空間
(
Ω
,
F
)
{\displaystyle (\Omega ,{\mathcal {F}})}
上的隨機變量,
P
{\displaystyle \mathbb {P} }
為概率測度,則稱如下定義的函數是X 的分布函數(德語:Verteilungsfunktion ,英語:distribution function ),或稱累積分布函數 (德語:kumulative Verteilungsfunktion ,英語:cumulative distribution function,簡稱CDF ):
F
X
(
a
)
=
P
(
X
≤
a
)
{\displaystyle F_{X}(a)=\mathbb {P} (X\leq a)}
,對任意實數
a
{\displaystyle a}
定義。
具有相同分布函數的隨機變量一定是同分布的,因此可以用分布函數來描述一個分布,但更常用的描述手段是概率密度函數 (德語:Wahrscheinlichkeitsdichtefunktion ,英語:probability density function, pdf )。
在常用的文獻中,「分布」一詞可指其廣義和狹義,而「累計分布函數」或「分布函數」一詞只能指稱後者。為了不致混淆,下文中談及上述的廣義時使用「分布」一詞;狹義時使用「分布函數」一詞。
分布函數的性質刻劃
對於特定的隨機變量
X
{\displaystyle X}
,其分布函數
F
X
{\displaystyle F_{X}}
是單調不減及右連續,而且
F
X
(
−
∞
)
=
0
{\displaystyle F_{X}(-\infty )=0}
,
F
X
(
∞
)
=
1
{\displaystyle F_{X}(\infty )=1}
。這些性質反過來也描述了所有可能成為分布函數的函數:
設
F
:
[
−
∞
,
∞
]
→
[
0
,
1
]
,
F
(
−
∞
)
=
0
,
F
(
∞
)
=
1
{\displaystyle F:[-\infty ,\infty ]\to [0,1],F(-\infty )=0,F(\infty )=1}
且單調不減、右連續,則存在概率空間
(
Ω
,
F
,
P
)
{\displaystyle (\Omega ,{\mathcal {F}},\mathbb {P} )}
及其上的隨機變量 X ,使得 F 是 X 的分布函數,即
F
X
=
F
{\displaystyle F_{X}=F}
隨機變量的分布
設
P
{\displaystyle P}
為概率測度 ,
X
{\displaystyle X}
為隨機變量 ,則函數
F
(
x
)
=
P
(
X
≤
x
)
,
(
x
∈
R
)
{\displaystyle F(x)=P(X\leq x),(x\in \mathbb {R} )}
稱為
X
{\displaystyle X}
的概率分布函數。如果将
X
{\displaystyle X}
看成是数轴上的随机点的坐标,那么,分布函数
F
(
x
)
{\displaystyle F(x)}
在
x
{\displaystyle x}
处的函数值就表示
X
{\displaystyle X}
落在区间
(
−
∞
,
x
]
{\displaystyle (-\infty ,x]}
上的概率。
例如,設隨機變量
X
{\displaystyle X}
為擲兩次骰子所得的點數差,而整个樣本空間由 36 个元素组成。
数量
( i , j )∈ S
x
{\displaystyle x}
P
(
X
=
x
)
{\displaystyle P(X=x)}
F
(
x
)
{\displaystyle F(x)}
6
( 1,1 ),( 2,2 ),( 3,3 ) ( 4,4 ),( 5,5 ),( 6,6 )
0
6/36
6/36
10
( 1,2 ),( 2,3 ) ( 3,4 ),( 4,5 ),( 5,6 ) ( 2,1 ),( 3,2 ),( 4,3 ) ( 5,4 ),( 6,5 )
1
10/36
16/36
8
( 1,3 ),( 2,4 ),( 3,5 ) ( 4,6 ),( 3,1 ),( 4,2 ) ( 5,3 ),( 6,4 )
2
8/36
24/36
6
( 1,4 ),( 2,5 ),( 3,6 ) ( 4,1 ),( 5,2 ),( 6,3 )
3
6/36
30/36
4
( 1,5 ),( 2,6 ) ( 5,1 ),( 6,2 )
4
4/36
34/36
2
( 1,6 ),( 6,1 )
5
2/36
36/36
其分布函数是:
F
(
x
)
=
{
0
,
x
<
0
6
/
36
,
x
<
1
16
/
36
,
x
<
2
24
/
36
,
x
<
3
30
/
36
,
x
<
4
34
/
36
,
x
<
5
1
,
x
≤
5
{\displaystyle F(x)={\begin{cases}0,x<0\\6/36,x<1\\16/36,x<2\\24/36,x<3\\30/36,x<4\\34/36,x<5\\1,x\leq 5\end{cases}}}
离散機率分布族
上面所列举的例子属于离散分布,即分布函数的值域 是離散 的,比如只取整數值的隨機變量就是屬於離散分布的。
F
(
x
)
{\displaystyle F(x)}
表示随机变量
X
≤
x
{\displaystyle X\leq x}
的概率值。如果X 的取值只有
x
1
<
x
2
<
.
.
.
<
x
n
{\displaystyle x_{1}<x_{2}<...<x_{n}}
,則:
F
X
(
x
i
)
=
∑
j
=
1
i
P
(
x
j
)
{\displaystyle F_{X}(x_{i})=\sum _{j=1}^{i}P(x_{j})}
∑
k
=
1
n
P
(
x
k
)
=
1
{\displaystyle \sum _{k=1}^{n}P(x_{k})=1}
其他常見的離散機率分布族有:
伯努利分布
二项式分布
二项分布是最重要的离散概率分布之一,由瑞士数学家雅各布·伯努利 (Jakob Bernoulli)所发展,一般用二项分布来计算概率的前提是,每次抽出样品后再放回去,并且只能有两种试验结果,比如黑球或红球,正品或次品等。二项分布指出,随机一次试验出现的概率如果为
p
{\displaystyle p}
,那么在
n
{\displaystyle n}
次试验中出现
k
{\displaystyle k}
次的概率为:
f
(
n
,
k
,
p
)
=
(
n
k
)
p
k
(
1
−
p
)
n
−
k
{\displaystyle f(n,k,p)={n \choose k}p^{k}(1-p)^{n-k}}
例如,在掷3次骰子中,不出现6点的概率是:
f
(
3
,
0
,
1
6
)
=
(
3
0
)
(
1
6
)
0
(
5
6
)
3
=
0.579
{\displaystyle f(3,0,{\frac {1}{6}})={3 \choose 0}\left({\frac {1}{6}}\right)^{0}\left({\frac {5}{6}}\right)^{3}=0.579}
在连续两次的轮盘 游戏中,至少出现一次红色的概率为:
f
(
2
,
1
,
18
37
)
+
f
(
2
,
2
,
18
37
)
=
0.736
{\displaystyle f(2,1,{\frac {18}{37}})+f(2,2,{\frac {18}{37}})=0.736}
二项分布在
p
=
0.5
{\displaystyle p=0.5}
时的对称性 ( 自变量为
k
{\displaystyle k}
)
二项分布在
p
=
0.5
{\displaystyle p=0.5}
时表现出图像的对称性,而在
p
{\displaystyle p}
取其它值时是非对称的。另外二项分布的期望值
E
(
X
)
=
n
p
{\displaystyle \operatorname {E} (X)=np}
,以及方差
var
(
X
)
=
n
p
(
1
−
p
)
{\displaystyle \operatorname {var} (X)=n\,p\,(1-p)\!}
几何分布
負二項式分布
超几何分布
作为离散概率分布的超几何分布尤其指在抽样试验时抽出的样品不再放回去的分布情况。在一个容器中一共有
N
{\displaystyle N}
个球,其中
M
{\displaystyle M}
个黑球,
(
N
−
M
)
{\displaystyle (N-M)}
个红球,通过下面的超几何分布公式可以计算出,从容器中抽出的
n
{\displaystyle n}
个球中(抽出的球不放回去)有
k
{\displaystyle k}
个黑球的概率是多少:
f
(
k
,
n
;
M
;
N
)
:=
(
M
k
)
(
N
−
M
n
−
k
)
(
N
n
)
{\displaystyle f(k,n;M;N):={\frac {\displaystyle {M \choose k}{N-M \choose n-k}}{\displaystyle {N \choose n}}}}
例如,容器中一共10个球,其中6个黑色,4个白色,一共抽5次(抽出的球不放回去),在这5个球中有3个黑球的概率是:
f
(
k
=
3
)
=
(
6
3
)
(
10
−
6
5
−
3
)
(
10
5
)
=
0.476
{\displaystyle f(k=3)={\frac {\displaystyle {6 \choose 3}{10-6 \choose 5-3}}{\displaystyle {10 \choose 5}}}=0.476}
超几何分布与二项式分布的关系
與二項式分布 不同的是,在超几何分布中,特別强调的是抽出的样品在下一次抽取前不再放回去,但是如果抽取的次数
n
{\displaystyle n}
和总共样品数
N
{\displaystyle N}
相比很小(大约
n
/
N
<
0.05
{\displaystyle n/N<0.05}
),这时在计算上二项分布和超几何分布相互间则没有主要的区别,此时人们更愿意采用二项分布的方法,因为在数学计算上二项分布要简单一些。
Poisson分布
Poisson 近似是二项分布的一種極限形式。其强调如下的试验前提:一次抽样的概率值
p
{\displaystyle p}
相对很小,而抽取次数
n
{\displaystyle n}
值又相对很大。因此泊松分布又被称之为罕有事件分布。泊松分布指出,如果随机一次试验出现的概率为
p
{\displaystyle p}
,那么在
n
{\displaystyle n}
次试验中出现
k
{\displaystyle k}
次的概率按照泊松分布应该为:
f
(
n
,
k
,
p
)
=
(
n
⋅
p
)
k
e
n
⋅
p
⋅
k
!
{\displaystyle f(n,k,p)={\frac {(n\cdot p)^{k}}{e^{n\cdot p}\cdot k!}}}
其中,数学常数
e
=
2.71828...
{\displaystyle e=2.71828...}
(自然對數 的底数) 例如,某工厂在生产零件时,每200个成品中会有1个次品,那么在100个零件中最多出现2个次品的概率按照泊松分布应该是:
f
(
100
,
0
,
1
200
)
+
f
(
100
,
1
,
1
200
)
+
f
(
100
,
2
,
1
200
)
=
0.986
{\displaystyle f(100,0,{\frac {1}{200}})+f(100,1,{\frac {1}{200}})+f(100,2,{\frac {1}{200}})=0.986}
在实践中如果遇到
n
{\displaystyle n}
值很大導致二项分布難於計算时,可以考慮使用泊松分布,但前提是
n
⋅
p
{\displaystyle n\cdot p}
必須趨於一個有限极限[來源請求] 。采用泊松分布的一个不太严格的规则(通过展开二项分布,并在形式上化简为类似泊松分布后,利用极限化简即可得) [來源請求] 是:
n
≥
100
{\displaystyle n\geq 100}
p
≤
0.1
{\displaystyle p\leq 0.1}
離散均匀分布
連續機率分布族
設
X
{\displaystyle X}
是具有分布函数
F
{\displaystyle F}
的连续随机变量 ,且F 的一階導數處處存在,則其導函數
f
(
x
)
=
d
F
(
x
)
d
x
{\displaystyle f(x)={\frac {\operatorname {d} F(x)}{\operatorname {d} x}}}
称为
X
{\displaystyle X}
的機率密度函数 。 每个機率密度函数都有如下性质:
∫
−
∞
∞
f
(
x
)
d
x
=
1
{\displaystyle \int _{-\infty }^{\infty }f(x)\,{\rm {d}}x=1}
∫
a
b
f
(
x
)
d
x
=
P
(
a
≤
X
≤
b
)
=
F
(
b
)
−
F
(
a
)
{\displaystyle \int _{a}^{b}f(x)\,{\rm {d}}x=\operatorname {P} (a\leq X\leq b)=F(b)-F(a)}
第一个性质表明,機率密度函数与
x
{\displaystyle x}
轴形成的区域的面积等于1,第二个性质表明,连续随机变量在区间
[
a
,
b
]
{\displaystyle [a,b]}
的概率值等于密度函数在区间
[
a
,
b
]
{\displaystyle [a,b]}
上的积分 ,也即是与
X
{\displaystyle X}
轴在
[
a
,
b
]
{\displaystyle [a,b]}
内形成的区域的面积。因为
0
≤
F
(
x
)
≤
1
{\displaystyle 0\leq F(x)\leq 1}
,且
f
(
x
)
{\displaystyle f(x)}
是
F
(
x
)
{\displaystyle F(x)}
的导数,因此按照积分原理不难推出上面两个公式。
正态分布 、指数分布 、
t
{\displaystyle t}
-分布,
F
{\displaystyle F}
-分布以及
χ
2
{\displaystyle \chi ^{2}}
-分布都是連續分布。
常見的連續機率分布族有:
均匀分布
正态分布
连续随机变量的機率密度函数如果是如下形式,
f
(
x
)
=
1
σ
2
π
e
(
−
1
2
(
x
−
μ
σ
)
2
)
{\displaystyle f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{\left(-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}\right)}}
那么这个连续分布被称之为正态分布,或者高斯分布。其密度函数的曲线呈对称钟形,因此又被称之为钟形曲线,其中
μ
{\displaystyle \mu }
是平均值 ,
σ
{\displaystyle \sigma }
是标准差 。正态分布是一种理想分布,许多典型的分布,比如成年人的身高,汽车轮胎的运转状态,人类的智商 值(IQ ),都属于或者说至少接近正态分布。同样按照连续分布的定义,常態機率密度函数具有和普通機率密度函数类似的性质:
∫
−
∞
∞
f
(
t
)
d
t
=
1
{\displaystyle \int _{-\infty }^{\infty }f(t)\,{\rm {d}}t=1}
F
(
x
)
=
1
σ
2
π
∫
−
∞
x
e
(
−
1
2
(
t
−
μ
σ
)
2
)
d
t
{\displaystyle F(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}\int _{-\infty }^{x}e^{\left(-{\frac {1}{2}}\left({\frac {t-\mu }{\sigma }}\right)^{2}\right)}\,{\rm {d}}t}
如果给出一个正态分布的平均值
μ
{\displaystyle \mu }
以及标准差
σ
{\displaystyle \sigma }
,可以根据上面的第二个公式计算出任一区间的概率分布情况。但是如上的计算量是相当庞大的,没有计算机的辅助基本是不可能的,解决这一问题的方法是借助
z
{\displaystyle z}
-变换以及标准正态分布表格(
z
{\displaystyle z}
-表格)。
中间值
μ
=
0
{\displaystyle \mu =0}
以及标准差
σ
=
1
{\displaystyle \sigma =1}
的正态分布被称之为标准正态分布,其累積分布函数是
Φ
(
z
)
=
1
2
π
⋅
∫
−
∞
z
e
−
1
2
t
2
d
t
{\displaystyle \Phi (z)={\frac {1}{\sqrt {2\pi }}}\cdot \int _{-\infty }^{z}e^{-{\frac {1}{2}}t^{2}}\mathrm {d} t}
将普通形式的正态分布变换到标准正态分布的方法是
z
=
x
−
μ
σ
{\displaystyle z={\frac {x-\mu }{\sigma }}}
例如,已知一正态分布的
μ
=
5
{\displaystyle \mu =5}
,
σ
=
3
{\displaystyle \sigma =3}
,求区间概率值
P
(
4
<
X
≤
7
)
?
{\displaystyle P(4<X\leq 7)?}
计算过程如下,
4
−
5
3
<
Z
≤
7
−
5
3
{\displaystyle {\frac {4-5}{3}}<Z\leq {\frac {7-5}{3}}}
−
1
/
3
<
Z
≤
2
/
3
{\displaystyle -1/3<Z\leq 2/3}
P
(
4
<
X
≤
7
)
=
P
(
−
1
/
3
<
Z
≤
2
/
3
)
=
Φ
(
2
/
3
)
−
Φ
(
−
1
/
3
)
=
0.7475
−
0.3694
=
0.3781
{\displaystyle P(4<X\leq 7)=P(-1/3<Z\leq 2/3)=\Phi (2/3)-\Phi (-1/3)=0.7475-0.3694=0.3781}
其中
Φ
(
z
)
{\displaystyle \Phi (z)}
值通过查
z
{\displaystyle z}
-表格获得。
正态分布与二项分布的关系
在离散分布中如果试验次数
n
{\displaystyle n}
值非常大,而且单次试验的概率
p
{\displaystyle p}
值又不是很小的情况下,正态分布可以用来近似的代替二项分布。一个粗略的使用正态分布的近似规则是:
n
⋅
p
⋅
(
1
−
p
)
≥
9
{\displaystyle n\cdot p\cdot (1-p)\geq 9}
。 从二项分布中获得
μ
{\displaystyle \mu }
和
σ
{\displaystyle \sigma }
值的方法是
期望值
μ
=
n
⋅
p
{\displaystyle \mu =n\cdot p}
標準差
σ
=
n
⋅
p
⋅
(
1
−
p
)
{\displaystyle \sigma ={\sqrt {n\cdot p\cdot (1-p)}}}
如果
σ
>
3
{\displaystyle \sigma >3}
,则必须采用下面的近似修正方法:
P
(
x
1
≤
X
≤
x
2
)
=
∑
k
=
x
1
x
2
(
n
k
)
⋅
p
k
⋅
(
q
)
n
−
k
⏟
E
F
≈
Φ
(
x
2
+
0.5
−
μ
σ
)
−
Φ
(
x
1
−
0.5
−
μ
σ
)
⏟
Z
F
{\displaystyle P(x_{1}\leq X\leq x_{2})=\underbrace {\sum _{k=x_{1}}^{x_{2}}{n \choose k}\cdot p^{k}\cdot (q)^{n-k}} _{\mathrm {EF} }\approx \underbrace {\Phi \left({\frac {x_{2}+0.5-\mu }{\sigma }}\right)-\Phi \left({\frac {x_{1}-0.5-\mu }{\sigma }}\right)} _{\mathrm {ZF} }}
(注:
q
=
1
−
p
{\displaystyle q=1-p}
;EF:二项分布;ZF:正态分布)
上(下)临界值分别增加(减少)修正值0.5的目的是在
σ
{\displaystyle \sigma }
值很大时获得更精确的近似值,只有
σ
{\displaystyle \sigma }
很小时,修正值0.5可以不被考虑。
例如,随机试验为连续64次掷硬币,获得的国徽数位于32和42之间的概率是多少?用正态分布计算如下,
μ
=
n
⋅
p
=
64
⋅
0.5
=
32
{\displaystyle \mu =n\cdot p=64\cdot 0.5=32}
σ
=
n
⋅
p
⋅
(
1
−
p
)
=
64
⋅
0.5
⋅
0.5
=
4
{\displaystyle \sigma ={\sqrt {n\cdot p\cdot (1-p)}}={\sqrt {64\cdot 0.5\cdot 0.5}}=4}
n
⋅
p
⋅
q
=
16
≥
9
{\displaystyle n\cdot p\cdot q=16\geq 9}
,符合近似规则,应用
z
{\displaystyle z}
-变换:
P
(
32
≤
X
≤
42
)
≈
Φ
(
42
+
0.5
−
32
4
)
−
Φ
(
32
−
0.5
−
32
4
)
{\displaystyle P(32\leq X\leq 42)\approx \Phi \left({\frac {42+0.5-32}{4}}\right)-\Phi \left({\frac {32-0.5-32}{4}}\right)}
=
Φ
(
2.63
)
−
Φ
(
−
0.13
)
=
0.0517
+
0.4957
=
0.5474
{\displaystyle =\Phi \left(2.63\right)-\Phi \left(-0.13\right)=0.0517+0.4957=0.5474}
标准正态分布
N
(
0
,
1
)
{\displaystyle N(0,1)}
下的
z
{\displaystyle z}
-表格
在运用
z
{\displaystyle z}
-表格时注意到利用密度函数的对称性来求出
z
{\displaystyle z}
为负值时的区域面积。
伽瑪分布
指数分布
其他連續型常用分布
貝它分布
雙指數分布
對數常態分布
柏拉圖分布
柯西分布
多元常態分布
参考文献
參見
外部链接
概率分布Java演示