本页使用了标题或全文手工转换

学生t-分布

维基百科,自由的百科全书
跳转至: 导航搜索
学生t-分布
概率密度函数
概率密度函數
累积分布函数
累積分佈函數
參數 自由度
支撑集
概率密度函数
累積分佈函數 其中:超几何函数
期望值 时为时未定义
中位數
眾數
方差 时为,否则为无穷大
偏度 时为
峰度 时为
信息熵

動差生成函數 未定义
特性函数

概率论统计学中,学生t-分布(Student's t-distribution),可简称为t分布,用于根据小样本来估計呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。

它是对两个样本均值差异进行显著性测试的学生t檢定的基础。学生t檢定改進了Z檢定Z-test),因為Z檢定以母體標準差已知為前提。雖然在樣本數量大(超過30個)時,可以應用Z檢定來求得近似值,但Z檢定用在小樣本會產生很大的誤差,因此必須改用学生t檢定以求準確。

在母體標準差未知的情況下,不論樣本數量大或小皆可應用学生t檢定。在待比較的數據有三組以上時,因為誤差無法壓低,此時可以用變異數分析(ANOVA)代替學生t檢定。

t分布的推导最早由大地测量学家Friedrich Robert Helmert英语Friedrich Robert Helmert于1876年提出[1][2][3]并由数学家Lüroth英语Jacob Lüroth证明。[4][5][6]

英國人威廉·戈塞(Willam S. Gosset)于1908年再次发现并发表了t分布,当时他还在愛爾蘭都柏林吉尼斯(Guinness)啤酒酿酒厂工作。酒廠雖然禁止員工發表一切與釀酒研究有關的成果,但允許他在不提到釀酒的前提下,以筆名發表t分佈的發現,所以论文使用了「学生」(Student)这一笔名。之后t检定以及相关理论经由羅納德·費雪(Sir Ronald Aylmer Fisher)的发扬光大,為了感謝戈塞特的功勞,費雪将此分布命名为学生t分布(Student's t)。[7]

描述[编辑]

假设是呈正态分布的独立的随机变量(随机变量的期望值方差但未知)。 令:

样本均值

样本方差

它显示了数量

正态分布并且均值和方差分别为0和1。

另一个相关数量

T概率密度函数是:

等于n − 1。 T的分布称为t-分布。参数 一般被称为自由度

伽玛函数。 如果是偶数,

如果是奇数,

T概率密度函数的形状类似于均值为0方差为1的正态分布,但更低更宽。随着自由度的增加,则越来越接近均值为0方差为1的正态分布。

t-分布密度 (红色曲线) 在自由度为 1, 2, 3, 5, 10, 30比较于标准正态分布(蓝色曲线).
前幅图用绿色曲线表示.
1df
1 degree of freedom
2df
2 degrees of freedom
3df
3 degrees of freedom
5df
5 degrees of freedom
10df
10 degrees of freedom
30df
30 degrees of freedom

T分布的概率累计函数,用不完全贝塔函数I表示:

其中


T分布的矩为:

学生t-分布置信区间的推导[编辑]

假设数量A在当Tt-分布(T自由度n − 1)满足

这与

是相同的

A是这个概率分布的第95个百分点

那么

等价于

因此μ的90%置信区间为:

计算[编辑]

现在最方便的计算T分布的办法是使用电子表格软件(如Excel)或查相关在线计算网站。例如,Excel的TDIST(x,v,sides)用来计算自由度为v的T分布,如果第三个参数为1,则给出Pr(T>x);如果第三个参数为2,则计算Pr(T>x Or T<-x).

下表列出了自由度為t-分布的單側和雙側區間值。例如,當樣本數量n=5時,則自由度=4,我們就可以查找表中以4開頭的行。該行第5列值為2.132,對應的單側值為95%(雙側值為90%)。這也就是說,T小於2.132的概率為95%(即單側),記為Pr(−∞ < T < 2.132) = 0.95;同時,T值介於-2.132和2.132之間的概率為90%(即雙側),記為Pr(−2.132 < T < 2.132) = 0.9。

這是根據分布的對稱性計算得到的,

Pr(T < −2.132) = 1 − Pr(T > −2.132) = 1 − 0.95 = 0.05,

因此,

Pr(−2.132 < T < 2.132) = 1 − 2(0.05) = 0.9.

注意關於表格的最後一行的值:自由度為無限大的t-分布和正態分布等價。

單側 75% 80% 85% 90% 95% 97.5% 99% 99.5% 99.75% 99.9% 99.95%
雙側 50% 60% 70% 80% 90% 95% 98% 99% 99.5% 99.8% 99.9%
1 1.000 1.376 1.963 3.078 6.314 12.71 31.82 63.66 127.3 318.3 636.6
2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925 14.09 22.33 31.60
3 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841 7.453 10.21 12.92
4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604 5.598 7.173 8.610
5 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032 4.773 5.893 6.869
6 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707 4.317 5.208 5.959
7 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499 4.029 4.785 5.408
8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355 3.833 4.501 5.041
9 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250 3.690 4.297 4.781
10 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169 3.581 4.144 4.587
11 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106 3.497 4.025 4.437
12 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055 3.428 3.930 4.318
13 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012 3.372 3.852 4.221
14 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977 3.326 3.787 4.140
15 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947 3.286 3.733 4.073
16 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921 3.252 3.686 4.015
17 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898 3.222 3.646 3.965
18 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878 3.197 3.610 3.922
19 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861 3.174 3.579 3.883
20 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845 3.153 3.552 3.850
21 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831 3.135 3.527 3.819
22 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819 3.119 3.505 3.792
23 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807 3.104 3.485 3.767
24 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797 3.091 3.467 3.745
25 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787 3.078 3.450 3.725
26 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779 3.067 3.435 3.707
27 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771 3.057 3.421 3.690
28 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763 3.047 3.408 3.674
29 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756 3.038 3.396 3.659
30 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750 3.030 3.385 3.646
40 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704 2.971 3.307 3.551
50 0.679 0.849 1.047 1.299 1.676 2.009 2.403 2.678 2.937 3.261 3.496
60 0.679 0.848 1.045 1.296 1.671 2.000 2.390 2.660 2.915 3.232 3.460
80 0.678 0.846 1.043 1.292 1.664 1.990 2.374 2.639 2.887 3.195 3.416
100 0.677 0.845 1.042 1.290 1.660 1.984 2.364 2.626 2.871 3.174 3.390
120 0.677 0.845 1.041 1.289 1.658 1.980 2.358 2.617 2.860 3.160 3.373
0.674 0.842 1.036 1.282 1.645 1.960 2.326 2.576 2.807 3.090 3.291

範例[编辑]

给定一个样本:样本均值和方差分别为10和2,样本大小为11(自由度为10)。根據公式:

可知,使用該方法統計出來的最大值,平均有90%的概率(即90%置信度/信心水準/confidence level)低於:

同理,使用該方法統計出來的最小值,平均有90%的概率(即90%置信度/信心水準/confidence level)高於:

因此,使用該方法統計出來的最大值和最小值,平均有80%的概率介於:

兩值之間。注意,這並不是說,數據的真正均值介於這兩個值之間的概率為80%。詳情請參考置信区间

註腳[编辑]

  1. ^ 引用错误:没有为名为HFR1的参考文献提供内容
  2. ^ 引用错误:没有为名为HFR2的参考文献提供内容
  3. ^ 引用错误:没有为名为HFR3的参考文献提供内容
  4. ^ 引用错误:没有为名为L1876的参考文献提供内容
  5. ^ Pfanzagl, J.; Sheynin, O. A forerunner of the t-distribution (Studies in the history of probability and statistics XLIV). Biometrika. 1996, 83 (4): 891–898. doi:10.1093/biomet/83.4.891. MR 1766040. 
  6. ^ Sheynin, O. Helmert’s work in the theory of errors. Arch. Hist. Exact Sci. 1995, 49: 73–104. doi:10.1007/BF00374700. 
  7. ^ Moore, David S. Introduction to the Practice of SATISTICS. George P. McCabe, Bruce A. Craig 7th International Edition. New York: W. H. Freeman and Company. 2012: p. 401. ISBN 978-1-4292-8664-0 (英语). 

相關條目[编辑]