学生t-分布

维基百科,自由的百科全书
跳转到: 导航, 搜索
跳过字词转换说明
学生t-分布
概率密度函數
概率密度函数
累積分佈函數
累积分布函数
參數 \nu > 0\! 自由度
支撑集 x \in (-\infty; +\infty)\!
概率密度函數 \frac{\Gamma((\nu+1)/2)} {\sqrt{\nu\pi}\,\Gamma(\nu/2)\,(1+x^2/\nu)^{(\nu+1)/2}}\!
累積分佈函數 \frac{1}{2} + \frac{x \Gamma \left( (\nu+1)/2 \right) \,_2F_1 \left ( \frac{1}{2},(\nu+1)/2;\frac{3}{2};-\frac{x^2}{\nu} \right)} {\sqrt{\pi\nu}\,\Gamma (\nu/2)} 其中:\,_2F_1 超几何函数
期望值 \nu>1时为0\nu=1时未定义
中位數 0
眾數 0
方差 \nu>2时为\frac{\nu}{\nu-2}\!,否则为无穷大
偏度 \nu>3时为0
峰度 \nu>4时为\frac{6}{\nu-4}\!
信息熵 \begin{matrix}
         \frac{\nu+1}{2}\left[ 
             \psi(\frac{1+\nu}{2}) 
               - \psi(\frac{\nu}{2})
         \right] \\[0.5em]
+ \log{\left[\sqrt{\nu}B(\frac{\nu}{2},\frac{1}{2})\right]}
\end{matrix}
動差生成函數 未定义
特性函数 \frac{K_{\nu/2}(\sqrt{\nu}|t|)(\sqrt{\nu}|t|)^{\nu/2}}{\Gamma(\nu/2)2^{\nu/2-1}},\;\nu>0

概率论统计学中,学生t-分布(Student's t-distribution)应用在当对呈正态分布的母群体的均值进行估计。它是对两个样本均值差异进行显著性测试的学生t测定的基础。t檢定改進了Z檢定en:Z-test),不論樣本數量大或小皆可應用。在樣本數量大(超過30等)時,可以應用Z檢定,但Z檢定用在小的樣本會產生很大的誤差,因此樣本很小的情况下得改用学生t檢定。在數據有三組以上時,因為誤差無法壓低,此時可以用變異數分析代替學生t檢定。

当母群体的标准差是未知的但却又需要估计时,我们可以运用学生t-分布。

学生t-分布可简称为t分布。其推导由威廉·戈塞1908年首先发表,当时他还在都柏林的健力士酿酒厂工作。因为不能以他本人的名义发表,所以论文使用了学生(Student)这一笔名。之后t检验以及相关理论经由羅納德·費雪的工作发扬光大,而正是他将此分布称为学生分布

目录

[编辑] 描述

假设X是呈正态分布的独立的随机变量(随机变量的期望值\mu方差\sigma^{2})。 令:

\overline{X}_n=(X_1+\cdots+X_n)/n

为样本均值。

{S_n}^2=\frac{1}{n-1}\sum_{i=1}^n\left(X_i-\overline{X}_n\right)^2

为样本方差。

它显示了数量

Z=\frac{\overline{X}_n-\mu}{\sigma/\sqrt{n}}

正态分布并且均值和方差分别为0和1。另一个相关数量

T=\frac{\overline{X}_n-\mu}{S_n/\sqrt{n}}

T概率密度函数是:

f(t) = \frac{\Gamma((\nu+1)/2)}{\sqrt{\nu\pi\,}\,\Gamma(\nu/2)} (1+t^2/\nu)^{-(\nu+1)/2}

 \nu 等于n − 1。 T 的分布称为t-分布。参数\nu 一般被称为自由度

 \Gamma 伽玛函数

分布的矩为:

E(T^k)=\begin{cases}
0 & \mbox{k odd}, 0<k< \nu\\
\frac{\Gamma(\frac{k+1}{2})\Gamma(\frac{n-k}{2})^{k/2}}{\sqrt{\pi}\Gamma(\frac{n}{2})} & \mbox{k even}, 0<k< \nu\\
\mbox{NaN} & \mbox{k odd}, 0<\nu\leq k\\
\infty & \mbox{k even}, 0<\nu\leq k\\ \end{cases}

[编辑] 学生t-分布置信区间的推导

假设数量A 在当Tt-分布(T自由度n − 1)满足

\Pr(-A < T < A)=0.90\,

这与

\Pr(T < A) = 0.95\, 是相同的

A是这个概率分布的第95个百分点

那么

\Pr\left(-A < {\overline{X}_n - \mu \over S_n/\sqrt{n}} < A\right)=0.9,

等价于

\Pr\left(\overline{X}_n - A{S_n \over \sqrt{n}} < \mu
< \overline{X}_n + A{S_n \over \sqrt{n}}\right) = 0.9

因此μ的90%置信区间为:

\overline{X}_n\pm A\frac{S_n}{\sqrt{n}}

[编辑] 表格

下表列出了自由度為\nut-分布的單側和雙側區間值。例如,當樣本數量n=5時,則自由度\nu=4,我們就可以查找表中以4開頭的行。該行第5列值為2.132,對應的單側值為95%(雙側值為90%)。這也就是說,T小於2.132的概率為95%(即單側),記為Pr(−∞ < T < 2.132) = 0.95;同時,T值介於-2.132和2.132之間的概率為90%(即雙側),記為Pr(−2.132 < T < 2.132) = 0.9。

這是根據分布的對稱性計算得到的,

Pr(T < −2.132) = 1 − Pr(T > −2.132) = 1 − 0.95 = 0.05,

因此,

Pr(−2.132 < T < 2.132) = 1 − 2(0.05) = 0.9.

注意 關於表格的最後一行的值:自由度為無限大的t-分布和正態分布等價。

單側 75% 80% 85% 90% 95% 97.5% 99% 99.5% 99.75% 99.9% 99.95%
雙側 50% 60% 70% 80% 90% 95% 98% 99% 99.5% 99.8% 99.9%
1 1.000 1.376 1.963 3.078 6.314 12.71 31.82 63.66 127.3 318.3 636.6
2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925 14.09 22.33 31.60
3 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841 7.453 10.21 12.92
4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604 5.598 7.173 8.610
5 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032 4.773 5.893 6.869
6 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707 4.317 5.208 5.959
7 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499 4.029 4.785 5.408
8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355 3.833 4.501 5.041
9 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250 3.690 4.297 4.781
10 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169 3.581 4.144 4.587
11 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106 3.497 4.025 4.437
12 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055 3.428 3.930 4.318
13 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012 3.372 3.852 4.221
14 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977 3.326 3.787 4.140
15 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947 3.286 3.733 4.073
16 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921 3.252 3.686 4.015
17 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898 3.222 3.646 3.965
18 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878 3.197 3.610 3.922
19 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861 3.174 3.579 3.883
20 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845 3.153 3.552 3.850
21 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831 3.135 3.527 3.819
22 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819 3.119 3.505 3.792
23 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807 3.104 3.485 3.767
24 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797 3.091 3.467 3.745
25 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787 3.078 3.450 3.725
26 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779 3.067 3.435 3.707
27 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771 3.057 3.421 3.690
28 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763 3.047 3.408 3.674
29 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756 3.038 3.396 3.659
30 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750 3.030 3.385 3.646
40 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704 2.971 3.307 3.551
50 0.679 0.849 1.047 1.299 1.676 2.009 2.403 2.678 2.937 3.261 3.496
60 0.679 0.848 1.045 1.296 1.671 2.000 2.390 2.660 2.915 3.232 3.460
80 0.678 0.846 1.043 1.292 1.664 1.990 2.374 2.639 2.887 3.195 3.416
100 0.677 0.845 1.042 1.290 1.660 1.984 2.364 2.626 2.871 3.174 3.390
120 0.677 0.845 1.041 1.289 1.658 1.980 2.358 2.617 2.860 3.160 3.373
\infty 0.674 0.842 1.036 1.282 1.645 1.960 2.326 2.576 2.807 3.090 3.291

[编辑] 範例

给定一个样本:样本均值和方差分别为10和2,样本大小为11(自由度为10)。根據公式:

\overline{X}_n\pm A\frac{S_n}{\sqrt{n}}

可知,使用該方法統計出來的最大值,平均有90%的概率(即90%置信度/信心水準/confidence level)低於:

10+1.37218 \frac{\sqrt{2}}{\sqrt{11}}=10.58510.

同理,使用該方法統計出來的最小值,平均有90%的概率(即90%置信度/信心水準/confidence level)高於:

10-1.37218 \frac{\sqrt{2}}{\sqrt{11}}=9.41490.

因此,使用該方法統計出來的最大值和最小值,平均有80%的概率介於:

10\pm1.37218 \frac{\sqrt{2}}{\sqrt{11}}=[9.41490,10.58510]

兩值之間。注意,這並不是說,數據的真正均值介於這兩個值之間的概率為80%。詳情請參考置信区间

[编辑] 相關條目

个人工具
名字空间
操作
导航
帮助
工具
其他语言