耦合 (概率)

耦合，或称关联结构（英语：Copula），为处理统计中随机变量相关性问题的一种方法，由一组随机变量的边际分布来确定它们的联合分布。通过关联结构来确定一个联合分布的方法是基于如下思想，一个简单转换可以通过分别将每个边缘分布都转换为平均分布的转换组成。这样，一个关联结构（dependence structure）就可以表达为一个基于上述所得平均分布之上的联合分布，而关联结构（copula）即是边缘均匀随机变量之上的一个联合分布。在实际应用中，上述的转换可能被设置为每个边缘变量的初始化步骤，或者上述转换的参数可能根据具体关联结构的对应参数设置。

按照所表达的关联关系的不同，关联结构被分为很多不同类别。典型情况下，一个种类的关联结构有多个参数用来表达不同的关联强度和关联类型。下面将大概描述一些有代表性的关联结构。关联结构的一个典型应用是，通过选择某一种类的关联结构来定义某一适合特定样本数据分布的联合分布，当然关联结构也可以来自于任何相应的给定联合分布。

基本思想

考察两个随机变量 $X$ , $Y$ ，分别具有连续累积分布函数 $F_{X}$ 和 $F_{Y}$ 。通过分别在两个随机变量上应用概率积分转换，得到 $X'=F_{X}(X)$ 和 $Y'=F_{Y}(Y)$ 。因此 $X'$ 和 $Y'$ 都是具有连续均匀分布的变量，相关性通常取决于 $X$ 和 $Y$ 是否是相关（自然，如果 $X$ 和 $Y$ 是不相关的，那么 $X'$ 和 $Y'$ 也是不相关的）。因为这个转换是可逆的，可以定义 $X$ 和 $Y$ 之间的相关性等于 $X'$ 和 $Y'$ 之间的相关性。因为 $X'$ 和 $Y'$ 是均匀分布的随机变量，所以问题被简化为定义一个在两个均匀分布之上的二项分布，这就是关联结构。所以，这一基本思想就是，通过把边缘变量转化为均匀分布变量而不再需要考察很多不同的边缘分布以简化问题，然后再把相关性定义为一个在均匀分布之上的联合分布。

定义

一个 关联结构是一个定义在 $n$ 维单位立方体 $[0,1]^{n}$ 上的多元联合分布，其每个边缘分布都是在 $[0,1]$ 区间上的均匀分布。

特别的， $C:[0,1]^{n}\to [0,1]$ 是一个n维关联结构，有

C\left(\mathbf {u} \right)=0

当

\mathbf {u} \in [0,1]^{n}

有至少一个分量为

0;

C\left(\mathbf {u} \right)=u_{i}

当

\mathbf {u} \in [0,1]^{n}

所有分量为

1

除了第i个分量等于

u_{i};

C\left(\mathbf {u} \right)

是n维递增的，也即，有每个hyperrectangle

B=\times _{i=1}^{n}[x_{i},y_{i}]\subseteq [0,1]^{n};

V_{C}\left(B\right):=\sum _{\mathbf {z} \in \times _{i=1}^{n}\{x_{i},y_{i}\}}(-1)^{N(\mathbf {z} )}C(\mathbf {z} )\geq 0;

其中 $N(\mathbf {z} )=\operatorname {card} \{k\mid z_{k}=x_{k}\}$ 。 $V_{C}\left(B\right)$ 所谓的 $B$ 的C-体积（volume）。

Sklar定理

由Sklar提出的这条定理^[1]是大多数关联结构的应用的基础。Sklar定理指出，一个给定的 $p$ 个变量的联合分布函数 $H$ ， $F_{1},F_{2},F_{3},\ldots ,F_{p}$ 为其边缘分布函数，必存在这样一个关联结构 $C$ 使 $H=C(F_{1},F_{2},F_{3},\ldots ,F_{p})$