统计学
统计学是在统计实践的基础上,自17世纪中叶产生并逐步发展起来的一门社会学科。它是研究如何测定、收集、整理、归纳和分析反映客观现象总体数量的数据,以便给出正确认识的方法论科学,被廣泛的應用在各門學科之上,從自然科学和社會科學到人文科學,甚至被用來工商業及政府的情報決策之上。
譬如自一組數據中,可以摘要並且描述這份數據的集中和離散情形,這個用法稱作為描述統計學。另外,觀察者以數據的形態,建立出一個用以解釋其隨機性和不確定性的數學模型,以之來推論研究中的步驟及母體,這種用法被稱做推論統計學。這兩種用法都可以被稱作為應用統計學。數理統計學则是討論背後的理論基礎的學科。
目录 |
統計學的歷史 [编辑]
統計學的英语词statistics是源於現代拉丁语statisticum collegium(國會)以及義大利语statista(國民或政治家)。德语Statistik,最早是由Gottfried Achenwall(1749)所使用,代表對國家的資料進行分析的學問,也就是“研究國家的科學”。在十九世紀統計學在廣泛的數據以及資料中探究其意義,並且由John Sinclair引進到英語世界。
因此,統計學的初衷是作為政府(通常是中央政府)以及管理階層的工具。它大量透過國家以及國際統計服務蒐集國家以及本土的資料。另外依照各方面,普查則提供關母體的資訊。
統計背後牽涉到更多數學導向的領域,如機率,或是從經驗科學(特別在天文學)中獲得的經驗證據設定估計參數。在今日的世界裡統計已經被使用在不僅僅是國家或政府的事務,更延伸到商業,自然以及社會科學,醫療等甚至更多方面。
因為統計學擁有深厚的歷史以及廣泛的應用性,統計學通常不只被認為是數學所處理的對象,而是與數學本身的哲學定義與意義有密切的關聯。許多知名的大學擁有獨立的數理統計學系。統計學也在如心理學,教育学以及公共衛生學系中被視為是一門主科。
統計學的觀念 [编辑]
為了將統計學應用到科學、工業以及社會問題上,我們由研究母群體開始。這可能是一個國家的人民,石頭中的水晶,或者是某家特定工廠所生產的商品。一個母群體甚至可能由許多次同樣的觀察程序所組成;由這種資料蒐集所組成的母群體我們稱它叫時間序列。
為了實際的理由,我們選擇研究母群體的子集代替研究母群體的每一筆資料,這個子集稱做樣本。以某種經驗設計實驗所蒐集的樣本叫做資料。資料是統計分析的對象,並且被用做兩種相關的用途:描述和推論。
描述統計學處理有關敘述的問題:是否可以摘要的說明資料的情形,不論是以數學或是圖片表現,以用來代表母群體的性質?基礎的數學描述包括了平均數和標準差等。圖像的摘要則包含了許多種的表和圖。主要是就說明資料的集中和離散情形。
推論統計學被用來將資料中的數據模型化,計算它的機率並且做出對於母群體的推論。這個推論可能以對/錯問題的答案所呈現(假設檢定),對於數字特徵量的估計(估計),對於未來觀察的預測,關聯性的預測(相關性),或是將關係模型化(迴歸)。其他的模型化技術包括變異數分析(ANOVA),時間序列(time series analysis),以及数据挖掘(data mining)。
相關的觀念特別值得被拿出來討論。對於資料集合的統計分析可能顯示兩個變數(母群體中的兩種性質)傾向於一起變動,好像它們是相連的一樣。舉例來說,對於人收入和死亡年齡的研究期刊可能會發現窮人比起富人平均來說傾向擁有較短的生命。這兩個變數被稱做相關的。但是實際上,我們不能直接推論這兩個變數中有因果關係;參見相關性推論因果關係(邏輯謬誤)。
如果樣本足以代表母群體的,那麼由樣本所做的推論和結論可以被引申到整個母群體之上。最大的問題在於決定樣本是否足以代表整個母群體。統計學提供了許多方法來估計和修正樣本和蒐集資料過程中的隨機性(誤差),如同上面所提到的透過經驗所設計的實驗。參見實驗設計。
要了解隨機性或是機率必須具備基本的數學觀念。數理統計(通常又叫做統計理論)是應用數學的分支,它使用機率論來分析並且驗證統計的理論基礎。
任何統計方法是有效的只有當這個系統或是所討論的母群體滿足方法論的基本假設。誤用統計學可能會導致描述面或是推論面嚴重的錯誤,這個錯誤可能會影響社會政策,醫療實踐以及橋樑或是核能發電計畫結構的可靠性。
即使統計學被正確的應用,結果對於不是專家的人來說可能會難以陳述。一些統計科學的結果對於大眾而言相當費解。舉例來說,統計資料中顯著的改變可能是由樣本的隨機變量所導致,但是這個顯著性可能與大眾而言難以理解。另外,某些統計學分析(尤其當涉及概率論時)得出的結論可能非常違悖一般人的直覺,如蒙提霍爾問題。人們(甚至包括一些科學家)往往需要統計的技巧(或懷疑)才能理解其正確性。
统计学的范畴 [编辑]
統計方法 [编辑]
測量的尺度 [编辑]
根據Stevens(1951)對數字的尺度分類,統計學一共有四種測量的尺度或是四種測量的方式。這四種測量(名目、順序、等距、等比)在統計過程中各具有不等的實用性。等比尺度(Ratio measurements)擁有零值及資料間的距離是相等被定義的;等距尺度(Interval measurements)資料間的距離是相等被定義的,但是它的零值並非絕對的無,而是自行定義的(如智力或溫度的測量);順序尺度(Ordinal measurements)的意義並非表現在其值而是在其順序之上;名目尺度(Nominal measurements)的測量值則不具量的意義。
統計技術 [编辑]
以下列出一些有名的統計檢定方法以及可供驗證實驗數據的程序
- Student t檢定(Student's t-test)註:Students為發展出此方法原創者的筆名。
- 變異數分析(ANOVA)
- 卡方分配(chi-square)
- 費雪最小顯著差異法(Fisher's Least Significant Difference test)
- 曼-惠特尼U檢定(Mann-Whitney U)
- 回歸分析(regression analysis)
- 相關性(correlation)
- 皮爾森積矩相關係數(Pearson product-moment correlation coefficient)
- 史匹曼等級相關係數(Spearman's rank correlation coefficient)
延伸學科 [编辑]
有些科學廣泛的應用統計的方法使得他們擁有各自的統計術語,這些學科包括:
- 農業科學
- 生物統計
- 商务統計
- 資料採礦(應用統計學以及圖形從資料中獲取知識)
- 經濟統計學
- 電機統計
- 統計物理學
- 人口統計
- 心理統計學
- 教育統計學
- 社會統計(包括所有的社會科學)
- 文獻統計分析
- 化學與程序分析(所有有關化學的資料分析與化工科學)
- 運動統計學,特別是棒球以及曲棍球
統計對於商業以及工業是一個基本的關鍵。他被用來了解與測量系統變異性,程序控制,對資料作出結論,並且完成資料取向的決策。在這些領域統計扮演了一個重要的角色。
2011年中华人民共和国教育部整合原属应用经济学和数学下与统计相关的学科 成为独立的一级学科统计学(可授予理学或者经济学学位),并在一级学科下设有数理统计、社会经济统计、生物卫生统计、金融统计与风险管理和精算、应用统计学五个二级学科。
参见 [编辑]
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|||||||||||||||||