随机变量的收敛

维基百科,自由的百科全书
跳转至: 导航搜索

概率论中有若干关于随机变量收敛的定义。研究一随机变量是否会收敛到某个极限随机变量是概率论中的重要内容,在统计概率随机过程中都有应用。在更广泛的数学领域中,随机变量的收敛被称为随机收敛,表示一系列本质上随机不可预测的事件所发生的模式可以在样本数量足够大的时候得到合理可靠的预测。各种不同的收敛定义实际上是表示预测时不同的刻画方式。

简介[编辑]

正如一个数列可能收敛到某个极限量,一列函数可能收敛到某个极限函数一样,随机收敛指的是一系列随机变量\left( X_n ; \; n \in \mathbb{N} \right)n趋向于无穷大时,会越来越接近某个固定的极限。这个极限可能是指:

  1. X_n 趋向某个固定的数;
  2. X_n 趋向某个确定函数的输出值;
  3. X_n 概率分布越来越接近某个特定的随机变量的概率分布;
  4. X_n 和某个特定随机变量的差别的平均值(数学期望值)趋向于0;
  5. X_n 和某个特定随机变量的差别的方差趋向于0.

等等。这些不同的极限的定义,可以严格地写成不同的收敛方式的定义。

依概率1收敛[编辑]

依概率1收敛又称为几乎处处收敛,其定义接近于函数逐点收敛的定义。事实上,由于随机变量的本质是由样本空间\mathit{\Omega}到取值空间\mathfrak{B}上的函数。因此,给定一个概率空间 \left( \mathit{\Omega},  \mathcal{F},   \mathbb{P} \right) 中的一列 随机变量\left( X_n ; n \in \mathbb{N} \right),考虑事件A_X = \left\{ \omega ; \; \lim_{n \to \infty} X_n(\omega) = X(\omega) \right\}。如果存在一个随机变量X,使得事件A_X  的概率为1,那么就称随机变量序列 \left( X_n ; n \in \mathbb{N} \right) 依概率1收敛到 X(或称 \left( X_n ; n \in \mathbb{N} \right) 几乎处处收敛到 X),记作:

X_n \xrightarrow{a.s.} X\mathbb{P} \left( \lim_{n \to \infty} X_n = X \right) = 1

当取值空间\mathfrak{B}是一般的实数空间\mathbb{R}时,依概率1收敛的意义是:

对任意的正实数\varepsilon > 0\mathbb{P} \Big( \liminf \big\{\omega \in \Omega : | X_n(\omega) - X(\omega) | < \varepsilon \big\} \Big) = 1

当空间\mathfrak{B}度量空间 (S, d) 的时候,依概率1收敛的意义是:

\mathbb{P}\Big( \omega\in\Omega:\, d\big(X_n(\omega),X(\omega)\big)\, \xrightarrow[n\to\infty] \, \, 0 \Big) = 1

依概率收敛[编辑]

(X_n ; \, n \in \mathbb{N}) 是一个随机变量序列,X是一个随机变量。如果对于任意的正实数\epsilon > 0,都有:

\lim_{n \to \infty} \mathbb{P} ( |X - X_n| \ge \epsilon) = 0

那么称序列 (X_n ; \, n \in \mathbb{N}) 依概率收敛到X,记作:X_n \xrightarrow[n \to \infty]{\mathbb{P}} X

如果(X_n ; \, n \in \mathbb{N})的取值空间是一个可分度量空间(Sd),那么依概率收敛的定义为[1]


     \mathbb{P}  \big(d(X_n,X)\geq\varepsilon\big) \to 0, \quad \forall\varepsilon>0.

依概率收敛和依概率1收敛的定义有相似之处,但本质上,依概率1收敛是比依概率收敛更“强”的收敛性质。如果一列随机变量依概率1收敛到某个极限,那么它必然也依概率收敛到这个极限,但反之则不然。一个实数上的例子是:设概率空间 \left( \mathit{\Omega},  \mathcal{F},   \mathbb{P} \right) 区间 \mathit{\Omega} = [0,1)上的一个连续型均匀分布\mathbb{P}=\mathbf{U} 。一个随机变量序列(X_n ; \, n \in \mathbb{N})定义为:

X_1 = \mathbf{1}_{ \left\{ \omega \in [0,1) \right\} } =  \mathbf{1}
X_2 = \mathbf{1}_{  \left\{ \omega \in [0,\frac12 ) \right\} } , \qquad X_3 = \mathbf{1}_{ \left\{ \omega \in [\frac12 ,1) \right\}}
X_4 = \mathbf{1}_{  \left\{ \omega \in [0,\frac14 ) \right\} } , \qquad X_5 = \mathbf{1}_{ \left\{ \omega \in [\frac14 , \frac12 ) \right\}}, \qquad X_6 = \mathbf{1}_{ \left\{ \omega \in [\frac12 , \frac34 ) \right\}} , \qquad X_7 = \mathbf{1}_{ \left\{ \omega \in [\frac34 ,1) \right\}}


 \cdots \;


\forall (k, m ) \in \mathbb{N}, \, \, 0 \leqslant k \leqslant  2^m-1 , \, \, X_{2^m+k} = \mathbf{1}_{ \left\{ \omega \in [\frac{k}{2^m},\frac{k+1}{2^m}) \right\} }

由于

\forall  2^m \leqslant n \leqslant 2^{m+1}-1 , \, \, \mathbb{P} \left( | X_{n} - 0 |  \geqslant \varepsilon \right) = \frac{1}{2^m}

所以

X_n \xrightarrow{\mathbb{P}} 0

另一方面,考虑X_{2^m}X_{2^{m+1} -1}这一组随机变量,它们取值为1的集合的并集恰好是总区间,因此对每一个\omega \in [0,1),总会有X_{2^m}X_{2^{m+1} -1}之间的某个变量X_{2^m + k_m},使得

X_{2^m + k_m}(\omega) = 1

所以,对任意一个\omega \in [0,1)

 \lim_{n \to \infty} | X_{n}(\omega) - 0 | \neq 0

即是说,(X_n ; \, n \in \mathbb{N}) 并不依概率1收敛到0。从例子中可以看到,依概率收敛比依概率1收敛更为宽松的地方是:当n趋于无穷大的时候,只要偏离极限函数的\omega (即是集合 \left\{ \omega_n ; \, | X_{n}(\omega_n) - X(\omega_n) | \geqslant \varepsilon \right\}中的\omega_n )“足够少”,就能使得依概率收敛成立了,这些\omega_n 的集合可以随着n不同而不同;而依概率1收敛则要求\omega_n 的集合固定地缩减至一个概率为0的集合。因此,依概率1收敛要比依概率收敛更为严格。

性质[编辑]

  • 依概率收敛蕴含依分布收敛:一个依概率收敛的随机变量序列必然也依分布收敛到同一个极限。
  • 在离散概率空间中,依概率收敛和依概率1收敛是等价的。
  • 依分布收敛蕴含依概率收敛当且仅当依分布收敛的极限是一个常数。
  • 连续映射定理说明:对任意连续函数g,如果随机变量序列(X_n ; \, n \in \mathbb{N})依概率收敛到X,那么序列(g(X_n) ; \, n \in \mathbb{N})依概率收敛到g(X)
  • 依概率收敛定义了确定概率空间上的随机变量空间上的一个拓扑。这个拓扑可以用凯范度量进行度量化[2]
    
    d(X,Y) = \inf\!\big\{ \varepsilon>0:\ \Pr\big(|X-Y|>\varepsilon\big)\leq\varepsilon\big\}.

平方平均收敛与 \mathbf{L}^{p} 收敛[编辑]

另一种收敛的定义与测度的积分有关。在积分理论中,如果两个函数f g 满足\int_{\mathcal{I}} (f-g)^2 d\mu = 0 ,那么这两个函数在关于测度\mu 的平方可积空间中相等。随机变量的平方平均收敛与此相似:如果对平方可积的随机变量序列(X_n ; \, n \in \mathbb{N}),存在随机变量X,使得\lim_{n\to \infty} \mathbb{E}\left[ (X_n - X)^2\right] = 0,那么就说序列 (X_n ; \, n \in \mathbb{N}) 平方平均收敛到X,记作:

X_n \xrightarrow{\mathbf{L}^2} X

由于 \mathbf{L}^{2} 空间是完备的,极限X也一定平方可积。

对于更一般的 \mathbf{L}^{p} 空间,也有类似的定义:如果对  \mathbf{L}^{p} 空间中的随机变量序列(X_n ; \, n \in \mathbb{N}),存在 \mathbf{L}^{p} 中的随机变量X,使得\lim_{n\to \infty} \mathbb{E}\left[ |X_n - X|^p\right] = 0,那么就说序列 (X_n ; \, n \in \mathbb{N})  \mathbf{L}^{p} 收敛到X,记作:

X_n \xrightarrow{\mathbf{L}^p} X

当常数p=1时,也称为平均收敛。

依分布收敛[编辑]

依分布收敛是最宽松的收敛方式之一。这种收敛不要求查看每个\omega,只要求序列的分布趋向于某个极限。直觉上,一个随机变量序列(X_n ; \, n \in \mathbb{N})依分布收敛到某个随机变量X,如果:

对所有的a,都有\mathbb{P} ( X_n \leqslant a) \rightarrow \mathbb{P} ( X \leqslant a)

更严格的定义是探讨随机变量X_n累积分布函数F_n(x) = \mathbb{P} ( X_n \leqslant x)。设有实值的随机变量序列 (X_n ; \, n \in \mathbb{N}) 和某个随机变量X(其累积分布函数为 F(x) ),如果对F(x) 的每个连续点x,都有  \lim_{n\to\infty} F_n(x) = F(x),那么就说 (X_n ; \, n \in \mathbb{N})依分布收敛到某个随机变量X。记作:

X_n \xrightarrow[n\to \infty]{\mathcal{D}} XX_n \xrightarrow[n\to \infty]{\mathit{d}} XX_n \xrightarrow[n\to \infty]{\mathcal{L}} X

由于依分布收敛只和随机变量的分布相关,所以也可以称一系列随机变量(依分布)收敛于某个分布。设是 \mathcal{L}_X 极限X的分布,那么依分布收敛也可以记作:

 X_n \ \xrightarrow{d}\ \mathcal{L}_X, \, \, X_n \rightsquigarrow X  \mathcal{L}(X_n)\to\mathcal{L}(X)

例如一个随机变量序列(X_n ; \, n \in \mathbb{N})依分布收敛到标准正态分布,就可以记作:

 X_n \ \xrightarrow{d}\ \mathcal{N}(0,1).

性质[编辑]

  • 作为最弱的收敛方式之一,依分布收敛无法推出其它的收敛方式。对于存在概率密度函數的连续型随机变量序列,依分布收敛并不能推出其概率密度函数也同样收敛。例如对于概率密度函數为f_n(x) = \left( 1- \cos(2 \pi n x) \right)\mathbf{1}_{x \in (0,1) }的随机变量序列,其依分布收敛到均匀分布的随机变量,但其概率密度函数不收敛[3]
  • 依分布收敛的等价定义:一个随机变量序列(X_n ; \, n \in \mathbb{N})依分布收敛到某个随机变量X和以下命题中的任意一个等价:
  • 连续映射定理说明,对于连续函数g(·),如果随机变量序列 (X_n ; \, n \in \mathbb{N})依分布收敛到随机变量X,那么 (g(X_n) ; \, n \in \mathbb{N})也依分布收敛到随机变量g(X)
  • 列维连续性定理: 随机变量序列(X_n ; \, n \in \mathbb{N})依分布收敛到某个随机变量X 当且仅当对应的特征函数序列(\varphi_n(x) ; \, n \in \mathbb{N})逐点收敛到某个在0处连续的函数 \varphi (此时随机变量X的分布为 \varphi )。
  • 列维-普罗科洛夫度量是依分布收敛的度量化结果。

关系[编辑]

各个收敛的定义有强弱之分。一个收敛性强于另一个是指从前者可以推出后者。例如依概率收敛强于依分布收敛,即是说如果一列随机变量依概率收敛到某个极限,那么必定也依分布收敛到这个极限。具体来说,收敛性的强弱关系可以用下图来表示:

\begin{matrix}
  \xrightarrow{L^r}  & \underset{r>s\geq1}{\Rightarrow} &  \xrightarrow{L^s}  &             & \\
                     &                                  &     \Downarrow      &             & \\
  \xrightarrow{a.s.} &            \Rightarrow           & \xrightarrow{\ p\ } & \Rightarrow & \xrightarrow{\ d\ }
  \end{matrix}
  • 依概率1收敛可以推出依概率收敛[4]
    
    X_n\ \xrightarrow{a.s.}\ X  \quad\Rightarrow\quad  X_n\ \xrightarrow{p}\ X
  • 依概率收敛可以推出存在依概率1收敛的子列(k_n)[5]
        X_n\ \xrightarrow{p}\ X  \quad\Rightarrow\quad  X_{k_n}\ \xrightarrow{a.s.}\ X
  • 依概率收敛可以推出依分布收敛[4]
        X_n\ \xrightarrow{p}\ X \quad\Rightarrow\quad  X_n\ \xrightarrow{d}\ X
  • 对任意的r>0\mathbf{L}^r-收敛可以推出依概率收敛:
    
    X_n\ \xrightarrow{L^r}\ X  \quad\Rightarrow\quad  X_n\ \xrightarrow{p}\ X
  • 如果r > s \geqslant 1,那么\mathbf{L}^r-收敛可以推出\mathbf{L}^s-收敛:
        X_n\ \xrightarrow{L^r}\ X  \quad\Rightarrow\quad  X_n\ \xrightarrow{L^s}\ X,
  • 如果序列\left( X_n ; \, n \in \mathbb{N} \right)依分布收敛到常数c,那么它也依概率收敛到常数c[4]
    
    X_n\ \xrightarrow{d}\ c \quad\Rightarrow\quad X_n\ \xrightarrow{p}\ c,
  • 如果序列\left( X_n ; \, n \in \mathbb{N} \right)依分布收敛到随机变量X,并且 X_n  Y_n 的差依概率收敛到0,那么 Y_n 也依分布收敛到随机变量X[4]
        X_n\ \xrightarrow{d}\ X,\ \ |X_n-Y_n|\ \xrightarrow{p}\ 0\  \quad\Rightarrow\quad  Y_n\ \xrightarrow{d}\ X
  • 如果序列\left( X_n ; \, n \in \mathbb{N} \right)依分布收敛到随机变量X,并且 序列\left( Y_n ; \, n \in \mathbb{N} \right)依分布收敛到常数c,那么向量列\left( (X_n, Y_n) ; \, n \in \mathbb{N} \right)依分布收敛到随机变量(X,c)[4]
        X_n\ \xrightarrow{d}\ X,\ \ Y_n\ \xrightarrow{d}\ c\ \quad\Rightarrow\quad (X_n,Y_n)\ \xrightarrow{d}\ (X,c)

    参见[编辑]

    参考资料[编辑]

    1. ^ Dudley 2002,Chapter 9.2, page 287
    2. ^ Dudley 2002
    3. ^ Romano & Siegel 1985,Example 5.26
    4. ^ 4.0 4.1 4.2 4.3 4.4 van der Vaart 1998,Theorem 2.7
    5. ^ Gut, Allan. Probability: A graduate course. Theorem 3.4: Springer. 2005. ISBN 0387228330. 

    参考书籍[编辑]

    • Bickel, Peter J.; Klaassen, Chris A.J.; Ritov, Ya’acov; Wellner, Jon A. Efficient and adaptive estimation for semiparametric models. New York: Springer-Verlag. 1998. ISBN 0387984739. LCCN QA276.8.E374 Check |lccn= value (帮助). 
    • Billingsley, Patrick. Probability and Measure. Wiley Series in Probability and Mathematical Statistics 2nd. Wiley. 1986. 
    • Billingsley, Patrick. Convergence of probability measures 2nd. John Wiley & Sons. 1999: 1–28. ISBN 0471197459. 
    • Dudley, R.M. Real analysis and probability. Cambridge, UK: Cambridge University Press. 2002. ISBN 052180972X. 
    • Grimmett, G.R.; Stirzaker, D.R. Probability and random processes 2nd. Clarendon Press, Oxford. 1992: 271–285. ISBN 0-19-853665-8. 
    • Jacobsen, M. Videregående Sandsynlighedsregning (Advanced Probability Theory) 3rd. HCØ-tryk, Copenhagen. 1992: 18–20. ISBN 87-91180-71-6. 
    • Ledoux, Michel; Talagrand, Michel. Probability in Banach spaces. Berlin: Springer-Verlag. 1991: xii+480. ISBN 3-540-52013-9. MR 1102015. 
    • Romano, Joseph P.; Siegel, Andrew F. Counterexamples in probability and statistics. Great Britain: Chapman & Hall. 1985. ISBN 0412989018. LCCN 1985 QA273.R58 1985 Check |lccn= value (帮助). 
    • van der Vaart, Aad W.; Wellner, Jon A. Weak convergence and empirical processes. New York: Springer-Verlag. 1996. ISBN 0387946403. LCCN 1996 QA274.V33 1996 Check |lccn= value (帮助). 
    • van der Vaart, Aad W. Asymptotic statistics. New York: Cambridge University Press. 1998. ISBN 9780521496032. LCCN 1998 QA276.V22 1998 Check |lccn= value (帮助). 
    • Williams, D. Probability with Martingales. Cambridge University Press. 1991. ISBN 0521406056. 
    • Wong, E.; Hájek, B. Stochastic Processes in Engineering Systems. New York: Springer–Verlag. 1985.