本页使用了标题或全文手工转换

廣義線性模式

维基百科,自由的百科全书
跳转至: 导航搜索

統計學上, 廣義線性模型 (Generalized linear model) 是一種受到廣泛應用的線性迴歸模式。此模式假設實驗者所量測的隨機變數的分佈函數與實驗中系統性效應(即非隨機的效應)可經由一鏈結函數(link function)建立起可資解釋其相關性的函數。

John NelderPeter McCullagh在1989年出版,被視為廣義線性模式的代表性文獻中提綱挈領地說明了廣義線性模式的原理、計算(如最大概似估計量)及其實務應用。

概說[编辑]

广义线性模型(generalized linear model, GLM)是简单最小二乘回归(OLS)的扩展,在廣義線性模式中,假設每個資料的觀測值\mathbf Y來自某個指數族分佈。 該分佈的平均數 \boldsymbol\mu 可由與該點獨立的X解釋:

\operatorname{E}(\boldsymbol{y}) = \boldsymbol{\mu} = g^{-1}(\mathbf{X}\boldsymbol{\beta})

其中E(\boldsymbol y)\boldsymbol y期望值\mathbf X\boldsymbol\beta是由未知待估計參數\boldsymbol\beta與已知變數\mathbf X構成的線性估計式,g則為鏈結函數。

在此模式下,\boldsymbol y的方差V可表示為:

 \operatorname{Var}(\boldsymbol{y}) = \operatorname{V}( \boldsymbol{\mu} ) = \operatorname{V}(g^{-1}(\mathbf{X}\boldsymbol{\beta})).

一般假設V可視為一指數族隨機變數函數

未知參數\boldsymbol\beta通常會以最大概似估計量, 殆最大概似估計量, 或以貝氏方法來估計。

模式組成[编辑]

廣義線性模式包含了以下主要部份:

1. 來自指數族的分佈函數f
2. 線性預測子 \boldsymbol\eta = \mathbf X\boldsymbol\beta
3. 鏈結函數g使得 E(\boldsymbol y) = \boldsymbol\mu = g^{-1}(\boldsymbol\eta)

指數族[编辑]

指數族隨機變數意指其具參數θτ機率密度函數, f (在論離散型隨機變數時,則為概率质量函数)可表為:

 f_Y(y; \theta, \tau) = \exp{\left(\frac{a(y)b(\theta) + c(\theta)}
                                                {h(\tau)} + 
                                           d(y,\tau) \right)}. \,\!

τ稱之為變異參數,通常用以解釋變異數。函數abcdh為已知。許多(不包含全部)型態的隨機變數可歸類為指數族

θ與該隨機變數的期望值有關。若a恆等函數,則稱該分佈屬於 正則型式。 另外,若b為恆等而τ已知,則θ稱為正則參數,其與期望值的關係可表為:

 \mu = \operatorname{E}(Y) = -c'(\theta). \,\!

一般情形下,該分佈的變異數可表為:

\operatorname{Var}(Y) = -c''(\theta) h(\tau). \,\!

線性預測子[编辑]

線性預測子是用將獨立變數經由線性組合來尋模式所能提供之資訊的計量變數。符號η (希臘字母 "Η")通常用來表示線性預測子。它與資料的期望值的鏈結函數值有關(故稱"預測子")。

η表為未知參數β的線性組合(故為"線性")。X則為獨立變數所組合而成的观测矩陣。如此一來,η可表示為

 \eta = \mathbf{X}\boldsymbol{\beta}.\,

X的元素通常為模式設計時可觀測的資料或為實驗時所得的數據。

鏈結函數[编辑]

鏈結函數解釋了線性預測子與分佈期望值的關係。鏈結函數的選擇可視情形而定。通常只要符合鏈結函數的值域有包含分佈期望值的條件即可。

當使用具正則參數θ的分佈時,鏈結函數需符合XTYβ充份統計量此一條件。這在θ與線性預測子的鏈結函數值相等時方成立。下面列出若干指數族分佈的典则鏈結函數及其反函數(有時稱為均值函數):

典则鏈結函數
分佈 名稱 鏈結函數 均值函數
正态 恆等 \mathbf{X}\boldsymbol{\beta}=\mu\,\! \mu=\mathbf{X}\boldsymbol{\beta}\,\!
指數 倒數 \mathbf{X}\boldsymbol{\beta}=\mu^{-1}\,\! \mu=(\mathbf{X}\boldsymbol{\beta})^{-1}\,\!
Gamma
逆高斯 二次倒數 \mathbf{X}\boldsymbol{\beta}=\mu^{-2}\,\! \mu=(\mathbf{X}\boldsymbol{\beta})^{-1/2}\,\!
卜瓦松 自然對數 \mathbf{X}\boldsymbol{\beta}=\ln{(\mu)}\,\! \mu=\exp{(\mathbf{X}\boldsymbol{\beta})}\,\!
二項式 Logit \mathbf{X}\boldsymbol{\beta}=\ln{\left(\frac{\mu}{1-\mu}\right)}\,\! \mu=\frac{\exp{(\mathbf{X}\boldsymbol{\beta})}}{1 + \exp{(\mathbf{X}\boldsymbol{\beta})}}\,\!
多項式

在指數分佈與Gamma分佈中,其典则鏈結函數的值域並不包含分佈均值,另外其線性預測子亦可能出現負值,此兩種分佈絕無均值為負的可能。當進行极大似然估计进行計算時需避免上述情形出現,這時便需要使用到非典则鏈結函數。

範例[编辑]

一般線性模式[编辑]

有些人可能會把一般線性模式和廣義線性模式給弄混了。一般線性模式可視為廣義線性模式的一個鏈結函數為恆等的特例。一般線性模式有著悠長的發展歷史。廣義線性模式具非恆等鏈結函數者有著漸近一致的結果。

線性迴歸[编辑]

廣義線性模式最簡單的例子便是線性迴歸。此例中分佈函數為常態分佈而鏈結函數為恆等函數在變異數已知的條件下並符合正規式。 這個例子具有廣義線性模式罕有的最大概似估計量閉合解

二元資料[编辑]

在討論二元反應結果(如沒有)時,通常以二項式分佈建模。其期望值'μi通常解釋為樣本Yi發生事件的機率p

二項式分佈有許多常用的鏈結函數,最常用的鏈結函數是logit

g(p) = \ln \left( { p \over 1-p } \right).

以此建模的廣義線性模式通常稱為logistic迴歸模式。

另外,任何連續型機率分配累積函數(CDF)的反函數皆可使用此模式,因為其值域為[0,1],包含了二項式分佈期望值的可能值域。常態機率分配累積函數\Phi是一個廣受應用於probit模式的選擇。其鏈結函數為

g(p) = \Phi^{-1}(p).\,\!

有時恆等函數也會被用為二項式分佈的鏈結函數,其缺點為預測值可能超出合理範圍。經過若干修正可以避免上述問題,但會在解釋上造成困難。此模式通常適用於p接近0.5的情形。 此種建模很接近logit及probit的線性轉換,有時計量經濟學家會稱其為Harvard模式。

二元資料的廣義線性模式變異函數可寫為

\operatorname{Var}(Y_{i})= \tau\mu_{i} (1-\mu_{i})\,\!

其中變異參數\tau通常等於1,若非,則該模式稱為溢變異或殆二元。

計次資料[编辑]

另一個常用的例子為用於計次的卜瓦松分佈。此例的鏈結函數為自然對數,為正規鏈結。 變異數函數與均值成等比

\operatorname{var}(Y_{i}) = \tau\mu_{i},\,

其中變異參數\tau通常為1。 若非,此模式通常稱為溢變異或似卜瓦松。

參考文獻[编辑]

  • Dobson, A.J. Introduction to Generalized Linear Models, Second Edition. London: Chapman and Hall/CRC. 2001. 
  • Hardin, James; Joseph Hilbe. Generalized Linear Models and Extensions. College Station: Stata Press. 2001, 2007.