置信区间

维基百科,自由的百科全书
跳转至: 导航搜索

统计学中,一个概率样本置信区间(Confidence interval)是对这个样本的某个总体参数区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平。举例来说,如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50%,60%),那么他的真实支持率有百分之九十五的机率落在百分之五十和百分之六十之间,因此他的真实支持率不足一半的可能性小于百分之2.5(假设分布是对称的)。

如例子中一样,置信水平一般用百分比表示,因此置信水平0.95上的置信区间也可以表达为:95%置信区间。置信区间的两端被称为置信极限。对一个给定情形的估计来说,置信水平越高,所对应的置信区间就会越大。

对置信区间的计算通常要求对估计过程的假设(因此属于参数统计),比如说假设估计的误差是成正态分布的。

置信区间只在频率统计中使用。在贝叶斯统计中的对应概念是可信区间。但是可信区间和置信区间是建立在不同的概念基础上的,因此一般上说取值不会一样。 置信空间表示通过计算估计值所在的区间。 置信水平表示准确值落在这个区间的概率。 置信区间表示具体值范围,置信水平是个概率值。例如:估计某件事件完成会在10~12日之间,但这个估计准确性大约只有80%:表示置信区间(10,12),置信水平80%。要想提高置信水平,就要放宽置信空间。

理论描述[编辑]

定义[编辑]

随机区间[编辑]

对于一组给定的数据,定义 \Omega 为观测对象,W 为所有可能的观测结果,X 为实际上的观测值,那么 X 实际上是一个定义在\Omega上,值域在 W 上的随机变量。这时,置信区间的定义是一对函数 u(.) 以及 v(.) ,也就是说,对于某个观测值X = x,其置信区间为(u(x), v(x)) 。实际上,若真实值为w,那么置信水平就是概率 c

c=\Pr(u(X)<w<v(X)).

其中U = u(X) 和 V = v(X) 都是统计量(即可观测的随机变量),而置信区间因此也是一个随机区间:(U, V)。

参考文献[编辑]