对数正态分布

维基百科,自由的百科全书
跳转至: 导航搜索
对数正态分布
Plot of the Lognormal PMF
μ=0
概率密度函數
Plot of the Lognormal CMF
μ=0
累積分佈函數
參數 \sigma \ge 0
-\infty \le \mu \le \infty
支撑集 x \in [0; +\infty)\!
概率密度函數 \frac{1}{x\sigma\sqrt{2\pi}}\exp\left(-\frac{\left[\ln(x)-\mu\right]^2}{2\sigma^2}\right)
累積分佈函數 \frac{1}{2}+\frac{1}{2} \mathrm{erf}\left[\frac{\ln(x)-\mu}{\sigma\sqrt{2}}\right]
期望值 e^{\mu+\sigma^2/2}
中位數 e^{\mu}
眾數 e^{\mu-\sigma^2}
方差 (e^{\sigma^2}\!\!-1) e^{2\mu+\sigma^2}
偏度 (e^{\sigma^2}\!\!+2)\sqrt{e^{\sigma^2}\!\!-1}
峰度 e^{4\sigma^2}\!\!+2e^{3\sigma^2}\!\!+3e^{2\sigma^2}\!\!-6
信息熵 \frac{1}{2}+\frac{1}{2}\ln(2\pi\sigma^2) + \mu
動差生成函數 (参见原始动差文本)
特性函数 \sum_{n=0}^{\infty}\frac{(it)^n}{n!}e^{n\mu+n^2\sigma^2/2}is asymptotically divergent but sufficient for numerical purposes

概率论统计学中,对数正态分布对数正态分布的任意随机变量概率分布。如果 X 是正态分布的随机变量,则 exp(X) 为对数正态分布;同样,如果 Y 是对数正态分布,则 ln(Y) 为正态分布。 如果一个变量可以看作是许多很小独立因子的乘积,则这个变量可以看作是对数正态分布。一个典型的例子是股票投资的长期收益率,它可以看作是每天收益率的乘积。 对于 x>0,对数正态分布的概率密度函数

f(x;\mu,\sigma) = \frac{1}{x \sigma \sqrt{2 \pi}} e^{-(\ln x - \mu)^2/2\sigma^2}

其中 \mu\sigma 分别是变量对数平均值標準差。它的期望值

\mathrm{E}(X) = e^{\mu + \sigma^2/2}

方差

\mathrm{var}(X) = (e^{\sigma^2} - 1) e^{2\mu + \sigma^2}.\,

给定期望值与方差,也可以用这个关系求 \mu\sigma

\mu = \ln(\mathrm{E}(X))-\frac{1}{2}\ln\left(1+\frac{\mathrm{var}(X)}{\mathrm{E}(X)^2}\right),
\sigma^2 = \ln\left(1+\frac{\mathrm{var}(X)}{\mathrm{E}(X)^2}\right).

与几何平均值和几何标准差的关系[编辑]

对数正态分布、几何平均数几何标准差是相互关联的。在这种情况下,几何平均值等于 \exp(\mu),几何平均差等于 \exp(\sigma)

如果采样数据来自于对数正态分布,则几何平均值与几何标准差可以用于估计置信区间,就像用算术平均数与标准差估计正态分布的置信区间一样。

置信区间界 对数空间 几何
3σ 下界 \mu - 3\sigma \mu_\mathrm{geo} / \sigma_\mathrm{geo}^3
2σ 下界 \mu - 2\sigma \mu_\mathrm{geo} / \sigma_\mathrm{geo}^2
1σ 下界 \mu - \sigma \mu_\mathrm{geo} / \sigma_\mathrm{geo}
1σ 上界 \mu + \sigma \mu_\mathrm{geo} \sigma_\mathrm{geo}
2σ 上界 \mu + 2\sigma \mu_\mathrm{geo} \sigma_\mathrm{geo}^2
3σ 上界 \mu + 3\sigma \mu_\mathrm{geo} \sigma_\mathrm{geo}^3

其中几何平均数 \mu_\mathrm{geo} = \exp(\mu),几何标准差 \sigma_\mathrm{geo} = \exp(\sigma)

[编辑]

原始为:

\mu_1=e^{\mu+\sigma^2/2}
\mu_2=e^{2\mu+4\sigma^2/2}
\mu_3=e^{3\mu+9\sigma^2/2}
\mu_4=e^{4\mu+16\sigma^2/2}

或者更为一般的矩

\mu_k=e^{k\mu+k^2\sigma^2/2}.

局部期望[编辑]

随机变量 X 在阈值 k 上的局部期望定义为

g(k)=\int_k^\infty (x-k) f(x)\, dx

其中 f(x) 是概率密度。对于对数正态概率密度,这个定义可以表示为

g(k)=\exp(\mu+\sigma^2/2)\Phi\left(\frac{-\ln(k)+\mu+\sigma^2}{\sigma}\right)-k \Phi\left(\frac{-\ln(k)+\mu}{\sigma}\right)

其中 \Phi 是标准正态部分的累积分布函数。对数正态分布的局部期望在保险业及经济领域都有应用,著名的Black-Scholes期权定价公式便可由此推导出。

参数的最大似然估计[编辑]

为了确定对数正态分布参数 μ 与 σ 的最大似然估计,我们可以采用与正态分布参数最大似然估计同样的方法。我们来看

f_L (x;\mu, \sigma) = \frac 1 x \, f_N (\ln x; \mu, \sigma)

其中用 f_L (\cdot) 表示对数正态分布的概率密度函数,用 f_N (\cdot)— 表示正态分布。因此,用与正态分布同样的指数,我们可以得到对数最大似然函数:

\begin{matrix}
  \ell_L (\mu,\sigma | x_1, x_2, ..., x_n)
  & = & - \sum _k \ln x_k + \ell_N (\mu, \sigma | \ln x_1, \ln x_2, \dots, \ln x_n) = \\  \\
\ & = & \operatorname {constant} + \ell_N (\mu, \sigma | \ln x_1, \ln x_2, \dots, \ln x_n).
\end{matrix}

由于第一项相对于 μ 与 σ 来说是常数,两个对数最大似然函数 \ell_L\ell_N 在同样的 μ 与 σ 处有最大值。因此,根据正态分布最大似然参数估计器的公式以及上面的方程,我们可以推导出对数正态分布参数的最大似然估计

\widehat \mu = \frac {\sum_k \ln x_k} n, \ 
        \widehat \sigma^2 = \frac {\sum_k {\left( \ln x_k - \widehat \mu \right)^2}} n.

相关分布[编辑]

  • 如果 Y = \ln(X)X \sim \operatorname{Log-N}(\mu, \sigma^2),则 Y \sim N(\mu, \sigma^2)正态分布
  • 如果 X_m \sim \operatorname {Log-N} (\mu, \sigma_m^2), \ m = \overline {1 ... n} 是有同样 μ 参数、而 σ 可能不同的统计独立对数正态分布变量 ,并且 Y = \prod_{m=1}^n X_m,则 Y 也是对数正态分布变量:Y \sim \operatorname {Log-N} \left( n\mu, \sum _{m=1}^n \sigma_m^2 \right)

进一步的阅读资料[编辑]

参考文献[编辑]

参见[编辑]