皮爾森卡方檢定

维基百科,自由的百科全书
跳转至: 导航搜索

「皮爾森卡方檢定」英语Pearson's chi-squared test)是最有名卡方檢定之一(其他常用的卡方檢定還有葉氏連續性校正英语Yates's correction for continuity似然比檢定英语Likelihood-ratio testPortmanteau檢定英语Portmanteau test等等--它們的統計值之機率分配都近似於卡方分配,故稱卡方檢定)。「皮爾森卡方檢定」最早由卡爾·皮爾森在1900年發表,[1] 用於類別變數英语categorical variables的檢定。科學文獻中,當提及卡方檢定而沒有特別指明類型時,通常即指皮爾森卡方檢定。

虛無假設[编辑]

「皮爾森卡方檢定」的虛無假設(H0)是:一個樣本中已發生事件次數分配會服從某個特定的理論分配。

在虛無假設的句子中,「事件」必須互斥,並且所有事件總機率等於1。或者說,每個事件是類別變數英语categorical variable)的一種類別或級別(英语level)。

簡單的例子:常見的六面骰子,事件=丟骰子的結果(可能是1~6任一個)屬於類別變數,每一面都是此變數的一種(一個級別)結果,每種結果互斥(1不是2, 3, 4, 5, 6; 2不是1, 3, 4 ...),六面的機率總和等於1。

用途和步驟[编辑]

「皮爾森卡方檢定」可用於兩種情境的變項比較:適配度檢定英语Goodness of Fit test,和獨立性檢定

  • 「適配度檢定」驗證一組觀察值的次數分配是否異於理論上的分配。
  • 「獨立性檢定」驗證從兩個變數抽出的配對觀察值組是否互相獨立(例如:每次都從A國和B國各抽一個人,看他們的反應是否與國籍無關)。

不管哪個檢定都包含三個步驟:

  1. 計算卡方檢定的統計值「 \chi^2 」:把每一個觀察值和理論值的差做平方後、除以理論值、再加總。
  2. 計算 \chi^2 統計值的自由度df」。
  3. 依據研究者設定的置信水準,查出自由度為 df 的卡方分配臨界值,比較它與第1步驟得出的 \chi^2 統計值,推論能否拒絕虛無假設

適配度檢定[编辑]

適配度檢定(英语Goodness of Fit test):測試樣本的機率分配與母體有多相似。

母體假設為離散型均勻分配[编辑]

當理論上的母體分配為每個類別機率一致時,即應適用離散型均勻分配的計算方法。 N 個觀察值於理論上應均勻分配在所有的 m 個欄位(類別)中,因此每個欄位(類別)的「理論次數」(或期望次數)為:

E_i=\frac{N}{m} ,其中 i=1, 2, ..., m

自由度 df=m-1 。「m」是總共要計算離差平方的個數(每個類別計算一次觀察值與理論值的差,再平方)。「-1」是因為對於計算\chi^2而言只有一個限制條件:觀察值的個數總和為 N

母體假設為其他種分配[编辑]

貝氏算法[编辑]

例子[编辑]

獨立性檢定[编辑]

在同一個個體(例如:同一個人)身上有兩個二元變數(X, Y),例如 X(男/女)和 Y(右撇子/左撇子),觀察兩個變數的相關性。虛無假設是:兩個變數呈統計獨立性。在本例中:性別與慣用手是獨立事件。

  • 首先,每個觀察值(每個抽出的人)會被重新編排到一個叫做「列聯表」(英语contingency table,又稱:條件次數表)的二維表格裡。本例的列聯表是2×2的構造(不算入Total欄位):
總計
43 44 87
9 4 13
總計 52 48 100
  • 如果列聯表共有 r 行 c 列,那麽在獨立事件的假設下,每個欄位的「理論次數」(或期望次數)為:
E_{i,j}=\frac{\left(\sum_{n_c=1}^c O_{i,n_c}\right) \cdot\left(\sum_{n_r=1}^r O_{n_r,j}\right)}{N}
其中 N 是樣本大小(觀察值的個數,亦即2×2列聯表所有欄位的總和,本例:N = 100)。本例的各欄位期望值如下(括號裡的數字):
總計
43 (45.24) 44 (41.76) 87
9 (6.76) 4 (6.24) 13
總計 52 48 100
  • \chi^2統計值的公式是:
 \chi^2 =   \sum_{i=1}^{r} \sum_{j=1}^{c} {(O_{i,j} - E_{i,j})^2 \over E_{i,j}}.
本例的\chi^2統計值是:
 \chi^2 = (43-45.24)^2/45.24 + (44-41.76)^2/41.76 + (9-6.76)^2/6.76 + (4-6.24)^2/6.24 = 1.777
  • 自由度 df=(r-1)(c-1) 是這樣得出:雖然總共要計算 rc 個離差平方(每個欄位計算一次觀察值與理論值的差,再平方),但 X 變數有1個限制條件(樣本抽出後,男性的人數即固定),Y 變數也有1個限制條件(樣本抽出後,右撇子的人數即固定),所以可自由變動的欄位數只有 (r-1)(c-1)
在本例中 df=(2-1)\times (2-1) = 1
  • \chi^2 = 1.777 , df = 1 的條件下,得出卡方分配右尾機率 p = 0.1825 ,無法拒絕虛無假設,亦即:無法拒絕性別變數與慣用手變數互相獨立的假設

限制[编辑]

  1. 如果個別欄位的期望次數太低,會使機率分配無法近似於卡方分配。一般要求:自由度 df>1時,期望次數小於5的欄位不多於總欄位的20%。
  2. 若自由度 df=1,且若期望次數 <10 ,則近似於卡方分配的假設不可信。此時可以將每個觀察值的離差減去 0.5 之後再做平方,這便是葉氏連續性修正英语Yates's correction for continuity

註腳[编辑]

其他文獻[编辑]