耦合 (概率)

维基百科,自由的百科全书
跳转至: 导航搜索

关联结构Copula),处理统计中随机变量相关性问题的一种方法,由一组随机变量的边缘分布来确定它们的联合分布。通过关联结构来确定一个联合分布的方法是基于如下的思想,一个简单转换可以通过分别将每个边缘分布都转换为平均分布的转换组成。这样,一个关联结构(dependence structure)就可以表达为一个基于上述所得平均分布之上的联合分布,而关联结构(copula)即是边缘均匀随机变量之上的一个联合分布。在实际应用中,上述的转换可能被设置为每个边缘变量的初始化步骤,或者上述转换的参数可能根据具体关联结构的对应参数设置。

按照所表达的关联关系的不同,关联结构被分为很多不同类别。典型情况下,一个种类的关联结构有多个参数用来表达不同的关联强度和关联类型。下面将大概描述一些有代表性的关联结构。关联结构的一个典型应用是,通过选择某一种类的关联结构来定义某一适合特定样本数据分布的联合分布,当然关联结构也可以来自于任何相应的给定联合分布。

基本思想[编辑]

考察两个随机变量X,Y,分别具有连续累积分布函数FXFY。通过分别在两个随机变量上应用概率积分转换,得到X’ = FXX) 和Y’ = FYY)。因此X’Y’都是具有连续均匀分布的变量,相关性通常取决于XY是否是相关(自然,如果XY是不相关的,那么X’Y’也是不相关的)。因为这个转换是可逆的,可以定义XY之间的相关性等于X’Y’之间的相关性。因为X’Y’是均匀分布的随机变量,所以问题被简化为定义一个在两个均匀分布之上的二项分布,这就是关联结构。所以,这一基本思想就是,通过把边缘变量转化为均匀分布变量而不再需要考察很多不同的边缘分布以简化问题,然后再把相关性定义为一个在均匀分布之上的联合分布。

定义[编辑]

一个 关联结构是一个定义在n单位立方体[0, 1]n上的多元联合分布,其每个边缘分布都是在[0, 1]区间上的均匀分布

特别的,C:[0,1]^n\to [0,1]是一个n维关联结构,有

 C\left(\mathbf u\right)=0\mathbf u\in [0,1]^n有至少一个分量为0;
 C\left(\mathbf u\right)=u_i\mathbf u\in [0,1]^n所有分量为1除了第i个分量等于u_i;
 C\left(\mathbf u\right) n维递增的,也即,有每个hyperrectangle B=\times_{i=1}^{n}[x_i,y_i]\subseteq [0,1]^n;
 V_{C}\left( B\right):=\sum_{\mathbf z\in \times_{i=1}^{n}\{x_i,y_i\}} (-1)^{N(\mathbf z)} C(\mathbf z)\ge 0;

其中N(\mathbf z)=\operatorname{card}\{k\mid z_k=x_k\} V_{C}\left( B\right)所谓的BC-体积(volume)。

Sklar定理[编辑]

由Sklar提出的这条定理[1]是大多数关联结构的应用的基础。Sklar定理指出,一个给定的p个变量的联合分布函数HF1, F2,F3,...Fp为其边缘分布函数,必存在这样一个关联结构C使H = CF1, F2,F3,...Fp

二项分布为例,Sklar定理应用如下。对任一二项分布函数Hxy),令Fx) = Hx, ∞) 而Gy) = H(∞, y) 为其单变量边缘概率分布函数。那么存在关联结构C以使

H(x,y)=C(F(x),G(y))\,

(此处已知分布C和它的累积分布函数)。此外,如果边缘分布Fx) 和Gy)连续,那么关联结构函数C是唯一的。否则,关联结构C在边缘分布的值域上是唯一确定的。

弗雷歇–霍夫丁(Fréchet–Hoeffding)关联结构边界[编辑]

Graphs of the Fréchet–Hoeffding copula limits and of the independence copula (in the middle).

最小(反单调)关联结构:是所有关联结构的下边界。仅在二项分布中,变量间表现为完全负相关。

 W(u,v) = \max(0,u+v-1).\,

n-元关联结构,下边界为

 W(u_1,\ldots,u_n) := \max\left\{1-n+\sum\limits_{i=1}^n {u_i} , 0 \right\} \leq C(u_1,\ldots,u_n).

最大 (共单调 ) 关联结构:是所有关联结构的上边界。其在二项分布中,变量间表现为完全正相关:

 M(u,v) = \min(u,v).\,

n-元关联结构,上边界为

C(u_1,\ldots,u_n)\le \min_{j \in \{1,\ldots,n\}} u_j =: M(u_1,\ldots,u_n).

结论:对所有关联结构Cuv),

 W(u,v) \le C(u,v) \le M(u,v).

对于多元关联的情况为

 W(u_1,\ldots,u_n) \le C(u_1,\ldots,u_n) \le M(u_1,\ldots,u_n).

关联结构种类[编辑]

正态关联结构[编辑]

Cumulative distribution and probability density functions of Gaussian copula with ρ = 0.4

在金融建模中常用到的一个关联结构是正态关联结构,正态关联结构是根据Sklar定理由二元正态分布构成。设\Phi_\rho是标准二元正态累积分布函数,相关系数ρ,则正态关联结构函数为

 C_\rho(u,v) = \Phi_\rho \left(\Phi^{-1}(u), \Phi^{-1}(v) \right)

其中,u, v \in [0,1]\Phi表示标准正态累积分布函数

C微分得出关联结构的密度函数:

 c_\rho(u,v) = \frac{\varphi_{X,Y, \rho} (\Phi^{-1}(u), \Phi^{-1}(v))}
{\varphi(\Phi^{-1}(u))\varphi(\Phi^{-1}(v))}

其中

 \varphi_{X,Y, \rho}(x,y) = \frac{1}{2 \pi\sqrt{1-\rho^2}} \exp \left ( -\frac{1}{2(1-\rho^2)}  \left [{x^2+y^2} -2\rho xy  \right ] \right )

皮尔逊矩相关系数ρ标准二元正态分布的概率密度函数,其标准正态密度为\varphi

Notes[编辑]

  1. ^ Sklar, A. Fonctions de répartition à n dimensions et leurs marges. Publ. Inst. Statist. Univ. Paris. 1959, 8: 229–231.