方差

「Variance」的各地常用名稱
中国大陸	方差
臺灣	變異數
港澳	方差
日本、韓國	分散
越南	分散（phương sai）

變異數（英語：variance）又稱变异数^[1]、變方^[2]，在概率论及统计学中，描述的是一个随机变量的离散程度，即一组数字与其平均值之间的距离的度量，是随机变量与其总体均值或样本均值的离差的平方的期望值。方差在统计中有非常核心的地位，其应用领域包括描述统计学、推論統計學、假說檢定、度量拟合优度，以及蒙特卡洛采样。由于科学分析经常涉及统计，方差也是重要的科研工具。方差是標準差的平方、分布的二阶矩，以及随机变量与其自身的协方差，其常用的符号表示有 $\sigma ^{2}$ 、 $s^{2}$ 、 $\operatorname {Var} (X)$ 、 $V(X)$ ，以及 $\mathbb {V} (X)$ 。^[3]

方差作为离散度量的优点是，它比其他离散度量（如平均差）更易于代数运算；例如，一组不相关的随机变量和的方差等于它们方差的和。在实际应用中，方差的一个缺点是它与随机变量的单位不同，而標準差则单位相同，这就是计算完成后通常采用标准差来衡量离散程度的原因。

有两个不同的概念都被称为“方差”。一种如上所述，是理论概率分布的方差。而另一种方差是一组观测值的特征。观测值通常是从真实世界的系统中测量的。如果给出系统的所有可能的观测，则它们算出的方差称为总体方差；然而，一般情况下我们只使用总体的一个子集（样本），由此计算出的方差称为样本方差。用样本计算出的方差可认为是对整个总体的方差的估计量。

方差的正平方根称为该随机变量的標準差；方差除以期望值归一化的值叫分散指数；标准差除以平均值归一化的值叫变异系数。

定义[编辑]

设 $X$ 为服从分布 $F$ 的随机变量，如果 $E [X]$ 是随机变量 $X$ 的期望值（均值 $μ = E [X]$ ），则随机变量 $X$ 或者分布 $F$ 的方差为 $X$ 的离差平方的期望值：

\operatorname {Var} (X)=\operatorname {E} \left[(X-\mu )^{2}\right]

这个定义涵盖了连续、离散，或两者皆非的随机变量。方差亦可視作随机变量与自身的协方差：

\operatorname {Var} (X)=\operatorname {Cov} (X,X)

方差也等价于生成 $X$ 的概率分布的二阶累积量。方差的常用的表达有 $\operatorname {Var} (X)$ ，有时作 $V(X)$ 或 $\mathbb {V} (X)$ ，也可写作符号 $\sigma _{X}^{2}$ 或 $\sigma ^{2}$ （读作“sigma方”）。方差的表达式可展开如下：

{\begin{aligned}\operatorname {Var} (X)&=\operatorname {E} \left[(X-\operatorname {E} [X])^{2}\right]\\[4pt]&=\operatorname {E} \left[X^{2}-2X\operatorname {E} [X]+\operatorname {E} [X]^{2}\right]\\[4pt]&=\operatorname {E} \left[X^{2}\right]-2\operatorname {E} [X]\operatorname {E} [X]+\operatorname {E} [X]^{2}\\[4pt]&=\operatorname {E} \left[X^{2}\right]-\operatorname {E} [X]^{2}\end{aligned}}

也就是说， $X$ 的方差等于 $X$ 平方的均值减去 $X$ 均值的平方。该等式不应该用于浮点运算，因为如果等式的两个成分大小相似，将会造成灾难性抵消。

离散随机变量[编辑]

如果随机变量 $X$ 是具有概率质量函數的离散随机分布 $x 1 \mapsto p 1, ..., x n \mapsto p n$ ，則：

\operatorname {Var} (X)=\sum _{i=1}^{n}p_{i}\cdot (x_{i}-\mu )^{2}=\sum _{i=1}^{n}(p_{i}\cdot x_{i}^{2})-\mu ^{2}

此處 $\mu$ 是其期望值，即：

\mu =\sum _{i=1}^{n}p_{i}\cdot x_{i}.

$x_{i}$ 表示實現值(realized value)

當 $X$ 為有 $n$ 個相等機率值的離散型均勻分佈時：

\mu ={\frac {1}{n}}\sum _{i=1}^{n}x_{i},

\operatorname {Var} (X)=\sigma ^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}={\frac {1}{n}}\left(\sum _{i=1}^{n}x_{i}^{2}-n\mu ^{2}\right)={\frac {\sum _{i=1}^{n}x_{i}^{2}}{n}}-\mu ^{2}.

$n$ 個相等機率值的方差亦可以點對點間的方變量表示為：

\operatorname {Var} (X)={\frac {1}{n^{2}}}\sum _{i=1}^{n}\sum _{j=1}^{n}{\frac {1}{2}}(x_{i}-x_{j})^{2}.

连续型随机变量[编辑]

如果随机变量 $X$ 是連續分布，機率密度函數為 $f (x)$ ，相應的累积分布函数為 $F (x)$ ，則其方差為：

{\begin{aligned}\operatorname {Var} (X)=\sigma ^{2}&=\int _{\mathbb {R} }(x-\mu )^{2}f(x)\,dx\\[4pt]&=\int _{\mathbb {R} }x^{2}f(x)\,dx-2\mu \int _{\mathbb {R} }xf(x)\,dx+\mu ^{2}\int _{\mathbb {R} }f(x)\,dx\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-2\mu \int _{\mathbb {R} }x\,dF(x)+\mu ^{2}\int _{\mathbb {R} }\,dF(x)\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-2\mu \cdot \mu +\mu ^{2}\cdot 1\\[4pt]&=\int _{\mathbb {R} }x^{2}\,dF(x)-\mu ^{2},\end{aligned}}

或等價地：

\operatorname {Var} (X)=\int _{\mathbb {R} }x^{2}f(x)\,dx-\mu ^{2},

其中 $\mu$ 為 $X$ 的期望值，其計算方法如下：

\mu =\int _{\mathbb {R} }xf(x)\,dx=\int _{\mathbb {R} }x\,dF(x).

這些公式中， $dx$ 和 $dF(x)$ 的積分分別為勒貝格積分和勒贝格-斯蒂尔吉斯积分（英语：Lebesgue–Stieltjes integration）。

若函數 $x^{2}f(x)$ 在每個有限區間 $[a,b]\subset \mathbb {R}$ 都是黎曼可積的，則：

\operatorname {Var} (X)=\int _{-\infty }^{+\infty }x^{2}f(x)\,dx-\mu ^{2},

該積分為非正常黎曼积分。

常见概率分布[编辑]

下表列出了一些常用概率分布的方差。

概率分布类型	概率分布函数	均值	方差
二項式分布	$\Pr \,(X=k)={\binom {n}{k}}p^{k}(1-p)^{n-k}$	$np$	$np(1-p)$
幾何分佈	$\Pr \,(X=k)=(1-p)^{k-1}p$	${\frac {1}{p}}$	${\frac {(1-p)}{p^{2}}}$
正态分布	$f\left(x\mid \mu ,\sigma ^{2}\right)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}$	$\mu$	$\sigma ^{2}$
連續型均勻分布	$f(x\mid a,b)={\begin{cases}{\frac {1}{b-a}}&{\text{for }}a\leq x\leq b,\\[3pt]0&{\text{for }}x<a{\text{ or }}x>b\end{cases}}$	${\frac {a+b}{2}}$	${\frac {(b-a)^{2}}{12}}$
指数分布	$f(x\mid \lambda )=\lambda e^{-\lambda x}$	${\frac {1}{\lambda }}$	${\frac {1}{\lambda ^{2}}}$
卜瓦松分布	$f(k\mid \lambda )={\frac {e^{-\lambda }\lambda ^{k}}{k!}}$	$\lambda$	$\lambda$

特性[编辑]

方差不會是負的，因為平方運算結果為非負數：

\operatorname {Var} (X)\geq 0

一個常數隨機變數的方差為零。反之，若有限個數組成的資料集方差為零，則其內所有數皆相等。對於一般隨機變數，也有類似結論，即方差為零推出該變數幾乎總是取同一個值：

P(X=a)=1\Leftrightarrow \operatorname {Var} (X)=0

方差不變於定位參數的變動。也就是說，如果一個常數被加至一個數列中的所有變數值，此數列的方差不會改變：

\operatorname {Var} (X+a)=\operatorname {Var} (X).

如果所有數值被放大一個常數倍，方差會放大此常數的平方倍：

\operatorname {Var} (aX)=a^{2}\operatorname {Var} (X)

兩個隨機變數合的方差為：

\operatorname {Var} (aX+bY)=a^{2}\operatorname {Var} (X)+b^{2}\operatorname {Var} (Y)+2ab\,\operatorname {Cov} (X,Y),

\operatorname {Var} (X-Y)=\operatorname {Var} (X)+\operatorname {Var} (Y)-2\,\operatorname {Cov} (X,Y),

此處 $Cov(X, Y)$ 代表共變異數。

對於 $N$ 個隨機變數 $\{X_{1},\dots ,X_{N}\}$ 的總和：

\operatorname {Var} \left(\sum _{i=1}^{N}X_{i}\right)=\sum _{i,j=1}^{N}\operatorname {Cov} (X_{i},X_{j})=\sum _{i=1}^{N}\operatorname {Var} (X_{i})+\sum _{i\neq j}\operatorname {Cov} (X_{i},X_{j})

在样本空间Ω上存在有限期望和方差的随机变量构成一个希尔伯特空间： $L 2 (Ω, dP)$ ，不过这裡的内积和长度跟协方差，标准差还是不大一样。所以，我们得把这个空间“除”常变量构成的子空间，也就是说把相差一个常数的所有原来那个空间的随机变量做成一个等价类。这还是一个新的无穷维线性空间，并且有一个从旧空间内积诱导出来的新内积，而这个内积就是协方差。

总体方差和样本方差[编辑]

总体方差[编辑]

一般而言，一个有限的容量为 $N$ 、元素的值为 $x i$ 的总体的总体方差为：

{\begin{aligned}\sigma ^{2}&={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{i}-\mu \right)^{2}={\frac {1}{N}}\sum _{i=1}^{N}\left(x_{i}^{2}-2\mu x_{i}+\mu ^{2}\right)\\[5pt]&=\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)-2\mu \left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}\right)+\mu ^{2}\\[5pt]&=\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)-\mu ^{2}\end{aligned}}

其中总体均值为：

\mu ={\frac {1}{N}}\sum _{i=1}^{N}x_{i}.

总体方差也可用下式计算：

\sigma ^{2}={\frac {1}{N^{2}}}\sum _{i<j}\left(x_{i}-x_{j}\right)^{2}={\frac {1}{2N^{2}}}\sum _{i,j=1}^{N}\left(x_{i}-x_{j}\right)^{2}.

该式成立，是因为：

{\begin{aligned}&{\frac {1}{2N^{2}}}\sum _{i,j=1}^{N}\left(x_{i}-x_{j}\right)^{2}\\[5pt]={}&{\frac {1}{2N^{2}}}\sum _{i,j=1}^{N}\left(x_{i}^{2}-2x_{i}x_{j}+x_{j}^{2}\right)\\[5pt]={}&{\frac {1}{2N}}\sum _{j=1}^{N}\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}^{2}\right)-\left({\frac {1}{N}}\sum _{i=1}^{N}x_{i}\right)\left({\frac {1}{N}}\sum _{j=1}^{N}x_{j}\right)+{\frac {1}{2N}}\sum _{i=1}^{N}\left({\frac {1}{N}}\sum _{j=1}^{N}x_{j}^{2}\right)\\[5pt]={}&{\frac {1}{2}}\left(\sigma ^{2}+\mu ^{2}\right)-\mu ^{2}+{\frac {1}{2}}\left(\sigma ^{2}+\mu ^{2}\right)\\[5pt]={}&\sigma ^{2}\end{aligned}}

总体方差与生成该总体的概率分布的方差相匹配。因此，“总体”的概念可推广到具有无限总体的连续随机变量。

样本方差[编辑]

有偏样本方差[编辑]

在许多实际情况下，总体的真实方差无法事先知道，必须以某种方式计算出来。在面对非常大的总体时，不可能计算总体中的每一个元素，因此必须从总体中抽取样本进行计算。^[4]样本方差还可以应用于用连续分布的样本来估计该分布的方差。

下面我们从总体中有放回抽取 $n$ 个数值 $Y 1, ..., Y n$ ，其中 $n < N$ ，并用该样本来估计总体的方差。^[5]直接使用样本数据的方差，得到的是离差平方（英语：squared deviations）的均值：

\sigma _{Y}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}Y_{i}^{2}\right)-{\overline {Y}}^{2}={\frac {1}{n^{2}}}\sum _{i,j\,:\,i<j}\left(Y_{i}-Y_{j}\right)^{2}.

此处， ${\overline {Y}}$ 表示样本均值：

{\overline {Y}}={\frac {1}{n}}\sum _{i=1}^{n}Y_{i}.

由于 $Y i$ 是随机选取的， ${\overline {Y}}$ 和 $\sigma _{Y}^{2}$ 都是随机变量。它们的期望值可以用从总体中抽取的所有可能的容量为 $n$ 的 ${Y i}$ 的样本集合来估计。对于 $\sigma _{Y}^{2}$ 即为：

{\begin{aligned}\operatorname {E} [\sigma _{Y}^{2}]&=\operatorname {E} \left[{\frac {1}{n}}\sum _{i=1}^{n}\left(Y_{i}-{\frac {1}{n}}\sum _{j=1}^{n}Y_{j}\right)^{2}\right]\\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}\operatorname {E} \left[Y_{i}^{2}-{\frac {2}{n}}Y_{i}\sum _{j=1}^{n}Y_{j}+{\frac {1}{n^{2}}}\sum _{j=1}^{n}Y_{j}\sum _{k=1}^{n}Y_{k}\right]\\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}\left({\frac {n-2}{n}}\operatorname {E} \left[Y_{i}^{2}\right]-{\frac {2}{n}}\sum _{j\neq i}\operatorname {E} \left[Y_{i}Y_{j}\right]+{\frac {1}{n^{2}}}\sum _{j=1}^{n}\sum _{k\neq j}^{n}\operatorname {E} \left[Y_{j}Y_{k}\right]+{\frac {1}{n^{2}}}\sum _{j=1}^{n}\operatorname {E} \left[Y_{j}^{2}\right]\right)\\[5pt]&={\frac {1}{n}}\sum _{i=1}^{n}\left[{\frac {n-2}{n}}\left(\sigma ^{2}+\mu ^{2}\right)-{\frac {2}{n}}(n-1)\mu ^{2}+{\frac {1}{n^{2}}}n(n-1)\mu ^{2}+{\frac {1}{n}}\left(\sigma ^{2}+\mu ^{2}\right)\right]\\[5pt]&={\frac {n-1}{n}}\sigma ^{2}.\end{aligned}}

因此， $\sigma _{Y}^{2}$ 给出的是总体方差的有偏估计量，偏差为 ${\frac {n-1}{n}}$ 。因此， $\sigma _{Y}^{2}$ 称为有偏样本方差。

无偏样本方差[编辑]

将偏差纠正后，可得到无偏样本方差，记为 $s^{2}$ ：

s^{2}={\frac {n}{n-1}}\sigma _{Y}^{2}={\frac {n}{n-1}}\left[{\frac {1}{n}}\sum _{i=1}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}\right]={\frac {1}{n-1}}\sum _{i=1}^{n}\left(Y_{i}-{\overline {Y}}\right)^{2}

当语境明确时，两个估计量都可以简称为“样本方差”。同样的证明也适用于取自连续概率分布的样本。

其中，对 $n - 1$ 的使用称为贝塞尔校正（英语：Bessel's correction），它也用于样本协方差（英语：sample covariance）和样本标准差（方差的平方根）。平方根是一个凹函数，因此会引入负偏差（根据簡森不等式），具体取决于分布，因此校正的样本标准差（使用贝塞尔校正）是有偏的。标准差的无偏估计（英语：unbiased estimation of standard deviation）是一个技术上复杂的问题，不过对于正态分布，使用 $n - 1.5$ 能得到几乎无偏的估计值。

无偏样本方差是函数 $ƒ (y 1, y 2) = (y 1 - y 2) 2 /2$ 的U-统计量。

一般化[编辑]

如果 $X$ 是一个向量其取值范围在實數空间 $R n$ ，并且其每个元素都是一个一维随机变量，我们就把 $X$ 称为随机向量。随机向量的方差是一维随机变量方差的自然推广，其定义为 $E [(X - μ)(X - μ) T]$ ，其中 $μ = E (X)$ ， $X T$ 是 $X$ 的转置。这个方差是一个非负定的方阵，通常称为协方差矩阵。

如果 $X$ 是一个複數随机变量的向量（向量中每個元素均為複數的隨機變數），那么其方差定义则为 $E [(X - μ)(X - μ) *]$ ，其中 $X *$ 是 $X$ 的共轭转置向量或稱為埃尔米特向量。根据这个定义，變異數为实数。

历史[编辑]

「方差」（variance）这个名词率先由羅納德·費雪（英語：Ronald Fisher）在论文《The Correlation between Relatives on the Supposition of Mendelian Inheritance》^[6]中提出。

后来方差逐渐衍生出了「半方差」（semivariance）、「亚方差」（hypo variance）、「超方差」（super variance）、「圆方差（英语：circular variance）」（circular variance）与「倒方差」（inverse variance）等概念。

半方差[编辑]

半方差的計算方式與方差類似，但是只包括了低於均值的觀測值：

{\text{Semivariance}}={1 \over {n}}\sum _{i:x_{i}<\mu }(x_{i}-\mu )^{2}

半方差在不同应用领域也被用作特殊的量度。对于偏态分布，半方差能提供方差所不能提供的额外信息。^[7]

参见[编辑]

方差分析
标准差
标准离差率
变异系数
异方差
最小平方頻譜分析法
离散程度
方差稳定化变换（英语：Variance-stabilizing transformation）

方差类型[编辑]

参考文献[编辑]

^ 存档副本. [2023-07-25]. （原始内容存档于2023-07-25）.
^ 存档副本. [2023-07-25]. （原始内容存档于2023-07-25）.
^ Wasserman, Larry. All of Statistics: a concise course in statistical inference. Springer texts in statistics. 2005: 51. ISBN 9781441923226.
^ Navidi, William (2006) Statistics for Engineers and Scientists, McGraw-Hill, pg 14.
^ Montgomery, D. C. and Runger, G. C. (1994) Applied statistics and probability for engineers, page 201. John Wiley & Sons New York
^ Ronald Fisher（1918）The correlation between relatives on the supposition of Mendelian Inheritance （页面存档备份，存于互联网档案馆）
^ Fama, Eugene F.; French, Kenneth R. Q&A: Semi-Variance: A Better Risk Measure?. Fama/French Forum. 2010-04-21 [2022-06-10]. （原始内容存档于2021-07-25）.

[1] 存档副本. [2023-07-25]. （原始内容存档于2023-07-25）.

[2] 存档副本. [2023-07-25]. （原始内容存档于2023-07-25）.

[3] Wasserman, Larry. All of Statistics: a concise course in statistical inference. Springer texts in statistics. 2005: 51. ISBN 9781441923226.

[4] Navidi, William (2006) Statistics for Engineers and Scientists, McGraw-Hill, pg 14.

[5] Montgomery, D. C. and Runger, G. C. (1994) Applied statistics and probability for engineers, page 201. John Wiley & Sons New York

[6] Ronald Fisher（1918）The correlation between relatives on the supposition of Mendelian Inheritance （页面存档备份，存于互联网档案馆）

[7] Fama, Eugene F.; French, Kenneth R. Q&A: Semi-Variance: A Better Risk Measure?. Fama/French Forum. 2010-04-21 [2022-06-10]. （原始内容存档于2021-07-25）.

[1]

[2]

[3]

[4]

[5]

[6]

[7]