變異數

「Variance」的各地常用名稱
中國大陸	方差
臺灣	變異數
港澳	方差
日本、韓國	分散
越南	分散（phương sai）

變異數（英語：variance）又稱方差^[1]、變方^[2]，在概率論及統計學中，描述的是一個隨機變量的離散程度，即一組數字與其平均值之間的距離的度量，是隨機變量與其總體均值或樣本均值的離差的平方的期望值。方差在統計中有非常核心的地位，其應用領域包括描述統計學、推論統計學、假說檢定、度量擬合優度，以及蒙特卡洛採樣。由於科學分析經常涉及統計，方差也是重要的科研工具。方差是標準差的平方、分布的二階矩，以及隨機變量與其自身的協方差，其常用的符號表示有 $\sigma ^{2}$ 、 $s^{2}$ 、 $\operatorname {Var} (X)$ 、 $V(X)$ ，以及 $\mathbb {V} (X)$ 。^[3]

方差作為離散度量的優點是，它比其他離散度量（如平均差）更易於代數運算；例如，一組不相關的隨機變量和的方差等於它們方差的和。在實際應用中，方差的一個缺點是它與隨機變量的單位不同，而標準差則單位相同，這就是計算完成後通常採用標準差來衡量離散程度的原因。

有兩個不同的概念都被稱為「方差」。一種如上所述，是理論概率分布的方差。而另一種方差是一組觀測值的特徵。觀測值通常是從真實世界的系統中測量的。如果給出系統的所有可能的觀測，則它們算出的方差稱為總體方差；然而，一般情況下我們只使用總體的一個子集（樣本），由此計算出的方差稱為樣本方差。用樣本計算出的方差可認為是對整個總體的方差的估計量。

方差的正平方根稱為該隨機變量的標準差；方差除以期望值歸一化的值叫分散指數；標準差除以平均值歸一化的值叫變異係數。

定義[編輯]

設 $X$ 為服從分布 $F$ 的隨機變量，如果 $E [X]$ 是隨機變量 $X$ 的期望值（均值 $μ = E [X]$ ），則隨機變量 $X$ 或者分布 $F$ 的方差為 $X$ 的離差平方的期望值：

\operatorname {Var} (X)=\operatorname {E} \left[(X-\mu )^{2}\right]

這個定義涵蓋了連續、離散，或兩者皆非的隨機變量。方差亦可視作隨機變量與自身的協方差：

\operatorname {Var} (X)=\operatorname {Cov} (X,X)

方差也等價於生成 $X$ 的概率分布的二階累積量。方差的常用的表達有 $\operatorname {Var} (X)$ ，有時作 $V(X)$ 或 $\mathbb {V} (X)$ ，也可寫作符號 $\sigma _{X}^{2}$ 或 $\sigma ^{2}$ （讀作「sigma方」）。方差的表達式可展開如下：

{\begin{aligned}\operatorname {Var} (X)&=\operatorname {E} \left[(X-\operatorname {E} [X])^{2}\right]\\[4pt]&=\operatorname {E} \left[X^{2}-2X\operatorname {E} [X]+\operatorname {E} [X]^{2}\right]\\[4pt]&=\operatorname {E} \left[X^{2}\right]-2\operatorname {E} [X]\operatorname {E} [X]+\operatorname {E} [X]^{2}\\[4pt]&=\operatorname {E} \left[X^{2}\right]-\operatorname {E} [X]^{2}\end{aligned}}

也就是說， $X$ 的方差等於 $X$ 平方的均值減去 $X$ 均值的平方。該等式不應該用於浮點運算，因為如果等式的兩個成分大小相似，將會造成災難性抵消。

離散隨機變量[編輯]

如果隨機變量 $X$ 是具有概率質量函數的離散隨機分布 $x 1 \mapsto p 1, ..., x n \mapsto p n$ ，則：

\operatorname {Var} (X)=\sum _{i=1}^{n}p_{i}\cdot (x_{i}-\mu )^{2}=\sum _{i=1}^{n}(p_{i}\cdot x_{i}^{2})-\mu ^{2}

此處 $\mu$ 是其期望值，即：

\mu =\sum _{i=1}^{n}p_{i}\cdot x_{i}.

$x_{i}$ 表示實現值(realized value)

當 $X$ 為有 $n$ 個相等機率值的離散型均勻分佈時：

\mu ={\frac {1}{n}}\sum _{i=1}^{n}x_{i},

\operatorname {Var} (X)=\sigma ^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}={\frac {1}{n}}\left(\sum _{i=1}^{n}x_{i}^{2}-n\mu ^{2}\right)={\frac {\sum _{i=1}^{n}x_{i}^{2}}{n}}-\mu ^{2}.

$n$ 個相等機率值的方差亦可以點對點間的方變量表示為：

\operatorname {Var} (X)={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}{\frac {1}{2}}(x_{i}-x_{j})^{2}.

連續型隨機變量[編輯]

如果隨機變量 $X$ 是連續分布，機率密度函數為 $f (x)$ ，相應的累積分布函數為 $F (x)$ ，則其方差為：

{\begin{aligned}\operatorname {Var} (X)=\sigma ^{2}&=\int _{\mathbb {R} }(x-\mu )^{2}f(x)\,dx\\[4pt]&=\int _{\mathbb {R} }x^{2}f(x)\,dx-2\mu \int _{\mathbb {R} }xf(x)\,dx+\mu ^{2}\int _{\mathbb {R} }f(x)\,dx\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-2\mu \int _{\mathbb {R} }x\,dF(x)+\mu ^{2}\int _{\mathbb {R} }\,dF(x)\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-2\mu \cdot \mu +\mu ^{2}\cdot 1\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-\mu ^{2},\end{aligned}}

或等價地：

\operatorname {Var} (X)=\int _{\mathbb {R} }x^{2}f(x)\,dx-\mu ^{2},

其中 $\mu$ 為 $X$ 的期望值，其計算方法如下：

\mu =\int _{\mathbb {R} }xf(x)\,dx=\int _{\mathbb {R} }x\,dF(x).

這些公式中， $dx$ 和 $dF(x)$ 的積分分別為勒貝格積分和勒貝格-斯蒂爾吉斯積分（英語：Lebesgue–Stieltjes integration）。

若函數 $x^{2}f(x)$ 在每個有限區間 $[a,b]\subset \mathbb {R}$ 都是黎曼可積的，則：

\operatorname {Var} (X)=\int _{-\infty }^{+\infty }x^{2}f(x)\,dx-\mu ^{2},

該積分為非正常黎曼積分。

常見概率分布[編輯]

下表列出了一些常用概率分布的方差。

概率分布類型	概率分布函數	均值	方差
二項式分布	$\Pr \,(X=k)={\binom {n}{k}}p^{k}(1-p)^{n-k}$	$np$	$np(1-p)$
幾何分佈	$\Pr \,(X=k)=(1-p)^{k-1}p$	${\frac {1}{p}}$	${\frac {(1-p)}{p^{2}}}$
正態分布	$f\left(x\mid \mu ,\sigma ^{2}\right)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}$	$\mu$	$\sigma ^{2}$
連續型均勻分布	$f(x\mid a,b)={\begin{cases}{\frac {1}{b-a}}&{\text{for }}a\leq x\leq b,\\[3pt]0&{\text{for }}x<a{\text{ or }}x>b\end{cases}}$	${\frac {a+b}{2}}$	${\frac {(b-a)^{2}}{12}}$
指數分布	$f(x\mid \lambda )=\lambda e^{-\lambda x}$	${\frac {1}{\lambda }}$	${\frac {1}{\lambda ^{2}}}$
卜瓦松分布	$f(k\mid \lambda )={\frac {e^{-\lambda }\lambda ^{k}}{k!}}$	$\lambda$	$\lambda$

特性[編輯]

方差不會是負的，因為平方運算結果為非負數：

\operatorname {Var} (X)\geq 0

一個常數隨機變數的方差為零。反之，若有限個數組成的資料集方差為零，則其內所有數皆相等。對於一般隨機變數，也有類似結論，即方差為零推出該變數幾乎總是取同一個值：

P(X=a)=1\Leftrightarrow \operatorname {Var} (X)=0

方差不變於定位參數的變動。也就是說，如果一個常數被加至一個數列中的所有變數值，此數列的方差不會改變：

\operatorname {Var} (X+a)=\operatorname {Var} (X).

如果所有數值被放大一個常數倍，方差會放大此常數的平方倍：

\operatorname {Var} (aX)=a^{2}\operatorname {Var} (X)

兩個隨機變數合的方差為：

\operatorname {Var} (aX+bY)=a^{2}\operatorname {Var} (X)+b^{2}\operatorname {Var} (Y)+2ab\,\operatorname {Cov} (X,Y),

\operatorname {Var} (X-Y)=\operatorname {Var} (X)+\operatorname {Var} (Y)-2\,\operatorname {Cov} (X,Y),

此處 $Cov(X, Y)$ 代表共變異數。

對於 $N$ 個隨機變數 $\{X_{1},\dots ,X_{N}\}$ 的總和：

\operatorname {Var} \left(\sum _{i=1}^{N}X_{i}\right)=\sum _{i,j=1}^{N}\operatorname {Cov} (X_{i},X_{j})=\sum _{i=1}^{N}\operatorname {Var} (X_{i})+\sum _{i\neq j}\operatorname {Cov} (X_{i},X_{j})

在樣本空間Ω上存在有限期望和方差的隨機變量構成一個希爾伯特空間： $L 2 (Ω, dP)$ ，不過這裡的內積和長度跟協方差，標準差還是不大一樣。所以，我們得把這個空間「除」常變量構成的子空間，也就是說把相差一個常數的所有原來那個空間的隨機變量做成一個等價類。這還是一個新的無窮維線性空間，並且有一個從舊空間內積誘導出來的新內積，而這個內積就是協方差。

總體方差和樣本方差[編輯]

總體方差[編輯]

一般而言，一個有限的容量為 $N$ 、元素的值為 $x i$ 的總體的總體方差為：

{\begin{aligned}\sigma ^{2}&={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{i}-\mu \right)^{2}={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{i}^{2}-2\mu x_{i}+\mu ^{2}\right)\\[5pt]&=\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)-2\mu \left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}\right)+\mu ^{2}\\[5pt]&=\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)-\mu ^{2}\end{aligned}}

其中總體均值為：

\mu ={\frac {1}{N}}\sum _{i=1}^{N}x_{i}.

總體方差也可用下式計算：

\sigma ^{2}={\frac {1}{N^{2}}}\sum _{i<j}\left(x_{i}-x_{j}\right)^{2}={\frac {1}{2N^{2}}}\sum _{i,j=1}^{N}\left(x_{i}-x_{j}\right)^{2}.

該式成立，是因為：

{\begin{aligned}&{\frac {1}{2N^{2}}}\sum _{i,j=1}^{N}\left(x_{i}-x_{j}\right)^{2}\\[5pt]={}&{\frac {1}{2N^{2}}}\sum _{i,j=1}^{N}\left(x_{i}^{2}-2x_{i}x_{j}+x_{j}^{2}\right)\\[5pt]={}&{\frac {1}{2N}}\sum _{j=1}^{N}\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)-\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}\right)\left({\frac {1}{N}}\sum _{j=1}^{N}x_{j}\right)+{\frac {1}{2N}}\sum _{i=1}^{N}\left({\frac {1}{N}}\sum _{j=1}^{N}x_{j}^{2}\right)\\[5pt]={}&{\frac {1}{2}}\left(\sigma ^{2}+\mu ^{2}\right)-\mu ^{2}+{\frac {1}{2}}\left(\sigma ^{2}+\mu ^{2}\right)\\[5pt]={}&\sigma ^{2}\end{aligned}}

總體方差與生成該總體的概率分布的方差相匹配。因此，「總體」的概念可推廣到具有無限總體的連續隨機變量。

樣本方差[編輯]

有偏樣本方差[編輯]

在許多實際情況下，總體的真實方差無法事先知道，必須以某種方式計算出來。在面對非常大的總體時，不可能計算總體中的每一個元素，因此必須從總體中抽取樣本進行計算。^[4]樣本方差還可以應用於用連續分布的樣本來估計該分布的方差。

下面我們從總體中有放回抽取 $n$ 個數值 $Y 1, ..., Y n$ ，其中 $n < N$ ，並用該樣本來估計總體的方差。^[5]直接使用樣本數據的方差，得到的是離差平方（英語：squared deviations）的均值：

\sigma _{Y}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}Y_{i}^{2}\right)-{\overline {Y}}^{2}={\frac {1}{n^{2}}}\sum _{i,j\,:\,i<j}\left(Y_{i}-Y_{j}\right)^{2}.

此處， ${\overline {Y}}$ 表示樣本均值：

{\overline {Y}}={\frac {1}{n}}\sum _{i=1}^{n}Y_{i}.

由於 $Y i$ 是隨機選取的， ${\overline {Y}}$ 和 $\sigma _{Y}^{2}$ 都是隨機變量。它們的期望值可以用從總體中抽取的所有可能的容量為 $n$ 的 ${Y i}$ 的樣本集合來估計。對於 $\sigma _{Y}^{2}$ 即為：

{\begin{aligned}\operatorname {E} [\sigma _{Y}^{2}]&=\operatorname {E} \left[{\frac {1}{n}}\sum _{i=1}^{n}\left(Y_{i}-{\frac {1}{n}}\sum _{j=1}^{n}Y_{j}\right)^{2}\right]\\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}\operatorname {E} \left[Y_{i}^{2}-{\frac {2}{n}}Y_{i}\sum _{j=1}^{n}Y_{j}+{\frac {1}{n^{2}}}\sum _{j=1}^{n}Y_{j}\sum _{k=1}^{n}Y_{k}\right]\\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}\left({\frac {n-2}{n}}\operatorname {E} \left[Y_{i}^{2}\right]-{\frac {2}{n}}\sum _{j\neq i}\operatorname {E} \left[Y_{i}Y_{j}\right]+{\frac {1}{n^{2}}}\sum _{j=1}^{n}\sum _{k\neq j}^{n}\operatorname {E} \left[Y_{j}Y_{k}\right]+{\frac {1}{n^{2}}}\sum _{j=1}^{n}\operatorname {E} \left[Y_{j}^{2}\right]\right)\\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}\left[{\frac {n-2}{n}}\left(\sigma ^{2}+\mu ^{2}\right)-{\frac {2}{n}}(n-1)\mu ^{2}+{\frac {1}{n^{2}}}n(n-1)\mu ^{2}+{\frac {1}{n}}\left(\sigma ^{2}+\mu ^{2}\right)\right]\\[5pt]&={\frac {n-1}{n}}\sigma ^{2}.\end{aligned}}

因此， $\sigma _{Y}^{2}$ 給出的是總體方差的有偏估計量，偏差為 ${\frac {n-1}{n}}$ 。因此， $\sigma _{Y}^{2}$ 稱為有偏樣本方差。

無偏樣本方差[編輯]

將偏差糾正後，可得到無偏樣本方差，記為 $s^{2}$ ：

s^{2}={\frac {n}{n-1}}\sigma _{Y}^{2}={\frac {n}{n-1}}\left[{\frac {1}{n}}\sum _{i=1}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}\right]={\frac {1}{n-1}}\sum _{i=1}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}

當語境明確時，兩個估計量都可以簡稱為「樣本方差」。同樣的證明也適用於取自連續概率分布的樣本。

其中，對 $n - 1$ 的使用稱為貝塞爾校正（英語：Bessel's correction），它也用於樣本協方差（英語：sample covariance）和樣本標準差（方差的平方根）。平方根是一個凹函數，因此會引入負偏差（根據簡森不等式），具體取決於分布，因此校正的樣本標準差（使用貝塞爾校正）是有偏的。標準差的無偏估計（英語：unbiased estimation of standard deviation）是一個技術上複雜的問題，不過對於正態分布，使用 $n - 1.5$ 能得到幾乎無偏的估計值。

無偏樣本方差是函數 $ƒ (y 1, y 2) = (y 1 - y 2) 2 /2$ 的U-統計量。

一般化[編輯]

如果 $X$ 是一個向量其取值範圍在實數空間 $R n$ ，並且其每個元素都是一個一維隨機變量，我們就把 $X$ 稱為隨機向量。隨機向量的方差是一維隨機變量方差的自然推廣，其定義為 $E [(X - μ)(X - μ) T]$ ，其中 $μ = E (X)$ ， $X T$ 是 $X$ 的轉置。這個方差是一個非負定的方陣，通常稱為協方差矩陣。

如果 $X$ 是一個複數隨機變量的向量（向量中每個元素均為複數的隨機變數），那麼其方差定義則為 $E [(X - μ)(X - μ) *]$ ，其中 $X *$ 是 $X$ 的共軛轉置向量或稱為埃爾米特向量。根據這個定義，變異數為實數。

歷史[編輯]

「方差」（variance）這個名詞率先由羅納德·費雪（英語：Ronald Fisher）在論文《The Correlation between Relatives on the Supposition of Mendelian Inheritance》^[6]中提出。

後來方差逐漸衍生出了「半方差」（semivariance）、「亞方差」（hypo variance）、「超方差」（super variance）、「圓方差（英語：circular variance）」（circular variance）與「倒方差」（inverse variance）等概念。

半方差[編輯]

半方差的計算方式與方差類似，但是只包括了低於均值的觀測值：

{\text{Semivariance}}={1 \over {n}}\sum _{i:x_{i}<\mu }(x_{i}-\mu )^{2}

半方差在不同應用領域也被用作特殊的量度。對於偏態分布，半方差能提供方差所不能提供的額外信息。^[7]

參見[編輯]

方差分析
標準差
標準離差率
變異係數
異方差
最小平方頻譜分析法
離散程度
方差穩定化變換（英語：Variance-stabilizing transformation）

方差類型[編輯]

參考文獻[編輯]

^ 存档副本. [2023-07-25]. （原始內容存檔於2023-07-25）.
^ 存档副本. [2023-07-25]. （原始內容存檔於2023-07-25）.
^ Wasserman, Larry. All of Statistics: a concise course in statistical inference. Springer texts in statistics. 2005: 51. ISBN 9781441923226.
^ Navidi, William (2006) Statistics for Engineers and Scientists, McGraw-Hill, pg 14.
^ Montgomery, D. C. and Runger, G. C. (1994) Applied statistics and probability for engineers, page 201. John Wiley & Sons New York
^ Ronald Fisher（1918）The correlation between relatives on the supposition of Mendelian Inheritance （頁面存檔備份，存於網際網路檔案館）
^ Fama, Eugene F.; French, Kenneth R. Q&A: Semi-Variance: A Better Risk Measure?. Fama/French Forum. 2010-04-21 [2022-06-10]. （原始內容存檔於2021-07-25）.

[1] 存档副本. [2023-07-25]. （原始內容存檔於2023-07-25）.

[2] 存档副本. [2023-07-25]. （原始內容存檔於2023-07-25）.

[3] Wasserman, Larry. All of Statistics: a concise course in statistical inference. Springer texts in statistics. 2005: 51. ISBN 9781441923226.

[4] Navidi, William (2006) Statistics for Engineers and Scientists, McGraw-Hill, pg 14.

[5] Montgomery, D. C. and Runger, G. C. (1994) Applied statistics and probability for engineers, page 201. John Wiley & Sons New York

[6] Ronald Fisher（1918）The correlation between relatives on the supposition of Mendelian Inheritance （頁面存檔備份，存於網際網路檔案館）

[7] Fama, Eugene F.; French, Kenneth R. Q&A: Semi-Variance: A Better Risk Measure?. Fama/French Forum. 2010-04-21 [2022-06-10]. （原始內容存檔於2021-07-25）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]