正态分布
|
|
本条目需要精通或熟悉本主题的專業人士参与及協助编辑。 |
| 概率密度函數 綠線代表標準常態分佈 |
|
| 累積分佈函數 顏色與機率密度函數同 |
|
| 參數 | location(real) squared scale(real) |
| 支撑集 | ![]() |
| 概率密度函數 | ![]() |
| 累積分佈函數 | ![]() |
| 期望值 | ![]() |
| 中位數 | ![]() |
| 眾數 | ![]() |
| 方差 | ![]() |
| 偏度 | 0 |
| 峰度 | 3 |
| 信息熵 | ![]() |
| 動差生成函數 | ![]() |
| 特性函数 | ![]() |
常態分佈(德語: Normalverteilung, 英語: Normal distribution) 又名高斯分佈(德語: Gauß-Verteilung, 英語: Gaussian distribution, 從德國數學家卡爾•弗裡德里希•高斯), 是一個在數學、物理及工程等領域都非常重要的機率分佈,在統計學的許多方面有著重大的影響力。
若隨機變量
服從一個位置參數為
、尺度參數為
的機率分佈,記為:
則其機率密度函數為
常態分佈的數學期望值或期望值
等於位置參數,決定了分佈的位置;其方差
的開平方或標準差
等於尺度參數,決定了分佈的幅度。
常態分佈的機率密度函數曲線呈鐘形,因此人們又經常稱之為鐘形曲線。我們通常所說的標準常態分佈是位置參數
, 尺度參數
的常態分佈(見右圖中綠色曲線)。
目录 |
概要 [编辑]
常態分佈是自然科學與行為科學中的定量現象的一個方便模型。各種各樣的心理學測試分數和物理現象比如光子計數都被發現近似地服從常態分佈。儘管這些現象的根本原因經常是未知的, 理論上可以證明如果把許多小作用加起來看做一個變量,那麼這個變量服從常態分佈(在R.N.Bracewell的Fourier transform and its application中可以找到一種簡單的證明)。常態分佈出現在許多區域統計:例如, 採樣分佈均值是近似地常態的,既使被採樣的樣本的原始群體分佈並不服從常態分佈。另外,常態分佈信息熵在所有的已知均值及方差的分佈中最大,這使得它作為一種均值以及方差已知的分佈的自然選擇。常態分佈是在統計以及許多統計測試中最廣泛應用的一類分佈。在概率論,常態分佈是幾種連續以及離散分佈的極限分佈。
歷史 [编辑]
常態分佈最早是棣莫弗(Abraham de Moivre)在1718年著作的書籍的(Doctrine of Change),及1734年發表的一篇關於二項分佈文章中提出的,當二項隨機變數的位置參數n很大及形狀參數為1/2時,則所推導出二項分布的近似分布函數就是常態分佈。拉普拉斯(Laplace)在1812年发表的《分析概率论》(Theorie Analytique des Probabilites)中對棣莫佛的結論作了擴展到二項分布的位置參數為n及形狀參數為p時。現在这一结论通常被稱為棣莫佛-拉普拉斯定理。
拉普拉斯在誤差分析試驗中使用了常態分佈。勒讓德於1805年引入最小二乘法這一重要方法;而高斯則宣稱他早在1794年就使用了該方法,並通過假設誤差服從常態分佈給出了嚴格的證明。
「鐘形曲線」這個名字可以追溯到Jouffret他在1872年首次提出這個術語"鐘形曲面",用來指代二元常態分佈(bivariate normal)。正态分布這個名字還被Charles S. Peirce、Francis Galton、Wilhelm Lexis在1875分别獨立地使用。這個術語是不幸的,因為它反應和鼓勵了一種謬誤,即很多概率分佈都是常態的。(請參考下面的「實例」)
這個分佈被稱為「常態」或者「高斯」正好是Stigler名字由來法則的一個例子,這個法則說「沒有科學發現是以它最初的發現者命名的」。
正态分布的定義 [编辑]
有幾種不同的方法用來說明一個隨機變量。最直觀的方法是概率密度函數,這種方法能夠表示隨機變量每個取值有多大的可能性。累積分佈函數是一種概率上更加清楚的方法,請看下邊的例子。還有一些其他的等價方法,例如cumulant、特徵函數、動差生成函數以及cumulant-生成函數。這些方法中有一些對於理論工作非常有用,但是不夠直觀。請參考關於概率分佈的討論。
概率密度函數 [编辑]
常態分佈的概率密度函數均值為
方差為
(或標準差
)是高斯函數的一個實例:
。
(請看指數函數以及
.)
如果一個隨機變量
服從這個分佈,我們寫作
~
. 如果
並且
,這個分佈被稱為標準正态分布,這個分佈能夠簡化為
。
右邊是給出了不同參數的正态分布的函數圖。
正态分布中一些值得注意的量:
- 密度函數關於平均值對稱
- 平均值與它的眾數(statistical mode)以及中位數(median)同一數值。
- 函數曲線下68.268949%的面積在平均數左右的一個標準差範圍內。
- 95.449974%的面積在平均數左右兩個標準差
的範圍內。 - 99.730020%的面積在平均數左右三個標準差
的範圍內。 - 99.993666%的面積在平均數左右四個標準差
的範圍內。 - 函數曲線的反曲點(inflection point)為離平均數一個標準差距離的位置。
累積分佈函數 [编辑]
累積分佈函數是指隨機變數
小於或等於
的機率,用機率密度函數表示為
常態分佈的累積分佈函数能够由一個叫做误差函数的特殊函数表示:
標準常態分佈的累積分佈函數習慣上記為
,它僅僅是指
,
時的值,
將一般常態分佈用誤差函數表示的公式简化,可得:
它的反函數被稱為反誤差函數,為:
該分位數函數有時也被稱為probit函數。probit函數已被證明沒有初等原函数。
常態分佈的分佈函數
沒有解析表達式,它的值可以通過數值積分、泰勒級數或者漸進序列近似得到。
生成函數 [编辑]
動差生成函數 [编辑]
動差生成函數或矩生成函數或動差產生函數被定義為
的期望值。
常態分佈的動差產生函數如下:
可以通過在指數函數內配平方得到。
特徵函數 [编辑]
特徵函數被定義為
的期望值,其中
是虛數單位. 對於一個常态分布來講,特徵函數是:
把矩生成函數中的
換成
就能得到特徵函數。
性質 [编辑]
常態分佈的一些性質:
- 如果
且
與
是實數,那麼
(參見期望值和方差). - 如果
與
是統計獨立的常態隨機變量,那麼:
- 它們的和也滿足常態分佈
(proof). - 它們的差也滿足常態分佈
.
與
兩者是相互獨立的。
- 它們的和也滿足常態分佈
- 如果
和
是獨立常態隨機變量,那麼:
- 它們的積
服從機率密度函數為
的分佈
其中
是修正貝塞爾函數(modified Bessel function)
- 它們的比符合柯西分佈,滿足
.
- 它們的積
- 如果
為獨立標準常態隨機變量,那麼
服從自由度為n的卡方分佈。
標準化常態隨機變量 [编辑]
動差或矩(moment) [编辑]
一些常態分佈的一階動差如下:
| 階數 | 原點矩 | 中心矩 | 累積量 |
|---|---|---|---|
| 0 | 1 | 0 | |
| 1 | ![]() |
0 | ![]() |
| 2 | ![]() |
![]() |
![]() |
| 3 | ![]() |
0 | 0 |
| 4 | ![]() |
![]() |
0 |
標準常態的所有二階以上的累積量為零。
生成常態隨機變量 [编辑]
中心極限定理 [编辑]
常態分佈有一個非常重要的性質:在特定條件下,大量統計獨立的隨機變量的平均值的分佈趨於正态分布,這就是中心極限定理。中心極限定理的重要意義在於,根據這一定理的結論,其他概率分佈可以用正态分布作為近似。
- 參數為
和
的二項分佈,在
相當大而且
不接近1或者0時近似於正态分布(有的參考書建議僅在
與
至少為5時才能使用這一近似)。
近似正态分布平均數為
且方差為
.
- 一泊松分佈帶有參數
當取樣樣本數很大時將近似正态分布
.
近似正态分布平均數為
且方差為
.
這些近似值是否完全充分正確取決於使用者的使用需求
無限可分性 [编辑]
正态分布是無限可分的概率分佈。
穩定性 [编辑]
正态分布是嚴格穩定的概率分佈。
標準偏差 [编辑]
在實際應用上,常考慮一組數據具有近似於常態分佈的機率分佈。若其假設正確,則約68.3%數值分佈在距離平均值有1個標準差之內的範圍,約95.4%數值分佈在距離平均值有2個標準差之內的範圍,以及約99.7%數值分佈在距離平均值有3個標準差之內的範圍。稱為「68-95-99.7法則」或「經驗法則」。
常態測試 [编辑]
相關分佈 [编辑]
是瑞利分布,如果
,这里
和
是两个独立正态分布。
是卡方分布具有
自由度,如果
这里
其中
是独立的。
是柯西分布,如果
,其中
并且
是两个独立的正态分布。
是对数正态分布如果
并且
.- 与Lévy skew alpha-stable分布相关:如果
因而
.
參量估計 [编辑]
參數的極大似然估計 [编辑]
概念一般化 [编辑]
多元正态分布的協方差矩陣的估計的推導是比較難於理解的。它需要瞭解譜原理(spectral theorem)以及為什麼把一個標量看做一個1×1 matrix的trace而不僅僅是一個標量更合理的原因。請參考協方差矩陣的估計(estimation of covariance matrices).
參數的矩估計 [编辑]
常見實例 [编辑]
光子計數 [编辑]
計量誤差 [编辑]
飲料裝填量不足與超量的機率 [编辑]
某飲料公司裝瓶流程嚴謹,每罐飲料裝填量符合平均600毫升,標準差3毫升的常態分配法則。隨機選取一罐,求(1)容量超過605毫升的機率;(2)容量小於590毫升的機率。
容量超過605毫升的機率 = p ( X > 605)= p ( ((X-μ) /σ) > ( (605 – 600) / 3) )= p ( Z > 5/3) = p( Z > 1.67) = 1 - 0.9525 = 0.0475
容量小於590毫升的機率 = p (X < 590) = p ( ((X-μ) /σ) < ( (590 – 600) / 3) )= p ( Z < -10/3) = p( Z < -3.33) = 0.0004
6-標準差(6-sigma或6-σ)的品質管制標準
6-標準差(6-sigma或6-σ),是製造業流行的品質管制標準。在這個標準之下,一個標準常態分配的變數值出現在正負三個標準差之外,只有2* 0.0013= 0.0026 (p (Z < -3) = 0.0013以及p(Z > 3) = 0.0013)。也就是說,這種品質管制標準的產品不良率只有萬分之二十六。假設例中的飲料公司裝瓶流程採用這個標準,而每罐飲料裝填量符合平均600毫升,標準差3毫升的常態分配。那么預期裝填容量的範圍應該多少?
6-標準差的範圍 = p ( -3 < Z < 3)= p ( - 3 < (X-μ) /σ < 3) = p ( -3 < (X- 600) / 3 < 3)= p ( -9 < X – 600 < 9) = p (591 < X < 609) 因此,預期裝填容量應該介於591至609毫升之間。
生物標本的物理特性 [编辑]
金融變量 [编辑]
壽命 [编辑]
測試和智力分佈 [编辑]
計算學生智商高低的機率 [编辑]
假設某校入學新生的智力測驗平均分數與變異數分別為100與12。那麼隨機抽取50個學生,他們智力測驗平均分數大於105的機率?小於90的機率?
本例沒有常態分配的假設,還好中央極限定理提供一個可行解,那就是當隨機樣本長度超過30,樣本平均數xbar近似於一個常態變數,因此標準常態變數Z = (xbar –μ) /σ/ √n。
平均分數大於105的機率 = p(Z> (105 – 100) / (12 /√50))= p(Z> 5/1.7) = p( Z > 2.94) = 0.0016
平均分數小於90的機率 = p(Z< (90 – 100) / (12 /√50))= p(Z < 5.88) = 0.0000
计算统计应用 [编辑]
生成正态分布随机变量 [编辑]
在计算机模拟中,经常需要生成正态分布的数值。最基本的一个方法是使用标准的正态累积分布函数的反函数。除此之外还有其他更加高效的方法,Box-Muller变换就是其中之一。另一个更加快捷的方法是ziggurat算法。下面将介绍这两种方法。一个简单可行的并且容易编程的方法是:求12个在(0,1)上均匀分布的和,然后减6(12的一半)。这种方法可以用在很多应用中。这12个数的和是Irwin-Hall分布;选择一个方差12。这个随即推导的结果限制在(-6,6)之间,并且密度为12,是用11次多项式估计正态分布。
Box-Muller方法是以两组独立的随机数U和V,这两组数在(0,1]上均匀分布,用U和V生成两组独立的标准常态分布随机变量X和Y:
。
这个方程的提出是因为二自由度的卡方分布(见性质4)很容易由指数随机变量(方程中的lnU)生成。因而通过随机变量V可以选择一个均匀环绕圆圈的角度,用指数分布选择半径然后变换成(正态分布的)x,y坐标。
參見 [编辑]
引用條目 [编辑]
- John Aldrich. Earliest Uses of Symbols in Probability and Statistics.網上材料,2006年6月3日存在.(See "Symbols associated with the Normal Distribution".)
- Abraham de Moivre (1738年). The Doctrine of Chances.
- Stephen Jay Gould (1981年). The Mismeasure of Man. First edition. W. W. Norton. ISBN 0-393-01489-4.
- R. J. Herrnstein and Charles Murray (1994年). The Bell Curve: Intelligence and Class Structure in American Life. Free Press. ISBN 0-02-914673-9.
- Pierre-Simon Laplace (1812年). Analytical Theory of Probabilities.
- Jeff Miller, John Aldrich, et al. Earliest Known Uses of Some of the Words of Mathematics. In particular, the entries for "bell-shaped and bell curve", "normal" (distribution), "Gaussian", and "Error, law of error, theory of errors, etc.".網上材料,2006年6月3日存在
- S. M. Stigler (1999年). Statistics on the Table, chapter 22. Harvard University Press. (History of the term "normal distribution".)
- Eric W. Weisstein et al. Normal Distribution at MathWorld.網上材料,2006年6月3日存在。
- Marvin Zelen and Norman C. Severo (1964年). Probability Functions. Chapter 26 of Handbook of Mathematical Functions with Formulas, Graphs, and Mathematical Tables, ed, by Milton Abramowitz and Irene A. Stegun. National Bureau of Standards.
外部連接 [编辑]
- Interactive Distribution Modeler (incl. Normal Distribution).
- basic tools for sixsigma
- PlanetMath: normal random variable
- GNU Scientific Library – Reference Manual – The Gaussian Distribution
- Distribution Calculator – Calculates probabilities and critical values for normal, t, chi-square and F-distribution.
- Inverse Cumulative Standard Normal Distribution Function
- Public Domain Normal Distribution Table
- Is normal distribution due to Karl Gauss? Euler, his family of gamma functions, and place in history of statistics
- Maxwell demons: Simulating probability distributions with functions of propositional calculus
- Normal distribution table
- The Doctrine of Chance at MathPages.
- 正态分布的前世今生
|
|||||||||||||||||||||
squared 







。
。
的範圍內。
的範圍內。
的範圍內。
![\Phi(z)=
\frac12 \left[1 + \mathrm{erf}\,(\frac{z-\mu}{\sigma\sqrt2})\right] .](http://upload.wikimedia.org/math/8/5/7/857f7f6a76c52a09e4b2d379d8a06a17.png)

![\Phi(z)
=
\frac{1}{2} \left[ 1 + \operatorname{erf} \left( \frac{z}{\sqrt{2}} \right) \right]
.](http://upload.wikimedia.org/math/e/8/a/e8a87f901033e282bb77731fad761171.png)






![=
\mathrm{E}
\left[
\exp(i t X)
\right]](http://upload.wikimedia.org/math/8/d/c/8dc3404119c0646f1675b63925836791.png)


且
與
是
(參見
與
是
(
.
與
兩者是相互獨立的。
和
是獨立常態隨機變量,那麼:
服從機率密度函數為
的分佈
其中
是修正貝塞爾函數(modified Bessel function)
.
為獨立標準常態隨機變量,那麼
服從自由度為n的



和
與
至少為5時才能使用這一近似)。
當取樣樣本數很大時將近似正态分布
是
,这里
和
是两个独立正态分布。
是
这里
其中
是独立的。
是
,其中
并且
是两个独立的正态分布。
是
并且
.
因而
。