資源描述:
《廣義線性模型》由會員上傳分享,免費在線閱讀,更多相關內容在行業(yè)資料-天天文庫。
1、廣義線性模型廣義線性模型*(Nelder和Wedderburn,1972)除了正態(tài)分布,也允許反應分布,以及模型結構中的一定程度的非線性。GLM具有基本結構g(μi)=Xiβ,其中μi≡E(Yi),g是光滑單調'鏈接函數',Xi是模型矩陣的第i行,X和β是未知參數的向量。此外,GLM通常會做出Yi是獨立的和Yi服從一些指數族分布的假設。指數族分布包括許多對實際建模有用的分布,如泊松分布,二項分布,伽馬分布和正態(tài)分布。GLM的綜合參考文獻是McCullagh和Nelder(1989),而Dobson(2001)提供了一個全面的介紹。因為廣義線性模型是以“線性預測器”Xβ的
2、形式詳細說明的,所以線性模型的許多一般想法和概念通過一些修改而繼續(xù)存在到廣義線性模型中。除了必須選擇的鏈接函數和分布之外,基本模型公式與線性模型公式基本相同。當然,如果恒等函數被選擇作為鏈接以及正態(tài)分布,那么普通線性模型將作為特例被恢復。然而,泛化是以某種成本為代價的:現在的模型擬合必須要迭代完成,而且用于推理的分布結果是近似的,并且由大樣本限制結果證明是正確的而不是精確的。但在深入探討這些問題之前,請考慮幾個簡單的例子。μi=cexp(bti),例1:在疾病流行的早期階段,新病例的發(fā)生率通常會隨著時間以指數方式增加。因此,如果μi是第ti天的新病例的預期數量,則該形式
3、的模型為請注意,“廣義”和“一般”線性模型之間存在區(qū)別-后一個術語有時用于指除簡單直線以外的所有線性模型??赡苁呛线m的,其中c和b是未知參數。通過使用對數鏈路,這樣的模型可以變成GLM形式log(μi)=log(c)+bti=β0+tiβ1(根據β0=logc和β1=b的定義)。請注意,模型的右側現在在參數中是線性的。反應變量是每天新病例的數量,因為這是一個計數,所以泊松分布可能是一個合理的可以嘗試的分布。因此,針對這種情況的GLM使用泊松反應分布,對數鏈路和線性預測器β0+tiβ1。,例2:狩獵動物捕獲獵物的速度yi往往隨著獵物密度xi的增加而增加,但最終會趨于平衡,
4、當捕食者捕獲盡可能多的獵物時。對于這種情況一個合適的模型可能是15其中a是未知參數,表示最大捕獲率,h是未知參數,表示捕獲率為最大速率一半時的獵物密度。很顯然,這個模型在其參數中是非線性的,但是通過使用倒數鏈路,右邊的參數可以是線性的:(這里β0≡1/a和β1≡h/a)。在這種情況下,獵物捕獲率的標準差可能與平均速率大致成比例,建議使用Gamma分布作為反應,并完成模型設定。們不限于示例的簡單直線形式,但可以有對于線性模型可能具有的線性預測器的任何結構。2.1GLMs的理論GLM的估計和推理基于最大似然估計理論,盡管可能性的最大化需要迭代最小二乘法,與1.8.6節(jié)的方法
5、相關。本部分首先介紹指數分布族,它允許發(fā)展一種通用方法來最大化GLM的可能性。然后基于似然理論的一般結果(在本章末尾推導)來討論GLM的推論。在本節(jié)中,區(qū)分反應數據y和Y的觀察值的隨機變量有時很有用,所以它們在符號上具有區(qū)別性:對于估計和估計值,它尚未完成。152.1.1指數族分布fθ(y)=exp[{yθ?b(θ)}/a(φ)+c(y,φ)],GLM中的反應變量可以來自指數族的任何分布。如果一個分布的概率密度函數或概率質量函數可以寫成,則該分布屬于指數族分布15其中b,a和c是任意函數,φ是任意的“尺度”參數,并且θ被稱為分布的“典范參數”(在GLM上下文中,θ將完全
6、依賴于模型參數β,但是目前沒有必要做這個明確)。例如,很容易看出,正態(tài)分布是指數族的一員,因為,.表2.1給出了在R中為GLM實施的指數族成員的類似分解。用a,b和φ可以得到指數族分布的均值和方差的一般表達式。給定一個特定的y,θ的對數似然性僅僅只是將log[fθ(y)]視為θ的一個函數。那是.將l作為一個隨機變量來處理,通過用隨機變量Y替換特定的觀測值y,可以評估?l/?θ的期望值:使用E(?l/?θ)=0這個一般結果,(在θ取真值時,參見2.4節(jié)中的(2.14))和重新排列意味著E(Y)=b0(θ)。(2.1)即任何指數族隨機變量的均值由bw.r.t.的一階導數給出
7、。θ,其中b的形式取決于特定的分布。該等式是將GLM的模型參數β與指數族的典范參數聯(lián)系起來的關鍵。在GLM中,參數β決定了反應變量的均值,并且通過(2.1),它們決定了每個反應觀測值的典范參數。,再次對似然性微分處理,并將其插入到一般結果中,E(?2l/?θ2)=-E[(?l/?θ)2](衍生物在真實θ值下計算,參見結果(2.16),第2.4節(jié)),重新安排第二個有用的一般結果:var(Y)=b00(θ)a(φ).a原則上可以是φ的任何函數,并且當與GLM一起工作時,如果φ是已知的,處理任何形式的a都是沒有困難的。然而,當φ未知,事情就會變