廣義線性模型

廣義線性模型

ID:39242245

大?。?.77 MB

頁(yè)數(shù):34頁(yè)

時(shí)間:2019-06-28

廣義線性模型_第1頁(yè)
廣義線性模型_第2頁(yè)
廣義線性模型_第3頁(yè)
廣義線性模型_第4頁(yè)
廣義線性模型_第5頁(yè)
資源描述:

《廣義線性模型》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、廣義線性模型廣義線性模型*(Nelder和Wedderburn,1972)除了正態(tài)分布,也允許反應(yīng)分布,以及模型結(jié)構(gòu)中的一定程度的非線性。GLM具有基本結(jié)構(gòu)g(μi)=Xiβ,其中μi≡E(Yi),g是光滑單調(diào)'鏈接函數(shù)',Xi是模型矩陣的第i行,X和β是未知參數(shù)的向量。此外,GLM通常會(huì)做出Yi是獨(dú)立的和Yi服從一些指數(shù)族分布的假設(shè)。指數(shù)族分布包括許多對(duì)實(shí)際建模有用的分布,如泊松分布,二項(xiàng)分布,伽馬分布和正態(tài)分布。GLM的綜合參考文獻(xiàn)是McCullagh和Nelder(1989),而Dobson(2001)提供了一個(gè)全面的介紹。因?yàn)閺V義線性模型是以“線性預(yù)測(cè)器”Xβ的

2、形式詳細(xì)說(shuō)明的,所以線性模型的許多一般想法和概念通過(guò)一些修改而繼續(xù)存在到廣義線性模型中。除了必須選擇的鏈接函數(shù)和分布之外,基本模型公式與線性模型公式基本相同。當(dāng)然,如果恒等函數(shù)被選擇作為鏈接以及正態(tài)分布,那么普通線性模型將作為特例被恢復(fù)。然而,泛化是以某種成本為代價(jià)的:現(xiàn)在的模型擬合必須要迭代完成,而且用于推理的分布結(jié)果是近似的,并且由大樣本限制結(jié)果證明是正確的而不是精確的。但在深入探討這些問(wèn)題之前,請(qǐng)考慮幾個(gè)簡(jiǎn)單的例子。μi=cexp(bti),例1:在疾病流行的早期階段,新病例的發(fā)生率通常會(huì)隨著時(shí)間以指數(shù)方式增加。因此,如果μi是第ti天的新病例的預(yù)期數(shù)量,則該形式

3、的模型為請(qǐng)注意,“廣義”和“一般”線性模型之間存在區(qū)別-后一個(gè)術(shù)語(yǔ)有時(shí)用于指除簡(jiǎn)單直線以外的所有線性模型??赡苁呛线m的,其中c和b是未知參數(shù)。通過(guò)使用對(duì)數(shù)鏈路,這樣的模型可以變成GLM形式log(μi)=log(c)+bti=β0+tiβ1(根據(jù)β0=logc和β1=b的定義)。請(qǐng)注意,模型的右側(cè)現(xiàn)在在參數(shù)中是線性的。反應(yīng)變量是每天新病例的數(shù)量,因?yàn)檫@是一個(gè)計(jì)數(shù),所以泊松分布可能是一個(gè)合理的可以嘗試的分布。因此,針對(duì)這種情況的GLM使用泊松反應(yīng)分布,對(duì)數(shù)鏈路和線性預(yù)測(cè)器β0+tiβ1。,例2:狩獵動(dòng)物捕獲獵物的速度yi往往隨著獵物密度xi的增加而增加,但最終會(huì)趨于平衡,

4、當(dāng)捕食者捕獲盡可能多的獵物時(shí)。對(duì)于這種情況一個(gè)合適的模型可能是15其中a是未知參數(shù),表示最大捕獲率,h是未知參數(shù),表示捕獲率為最大速率一半時(shí)的獵物密度。很顯然,這個(gè)模型在其參數(shù)中是非線性的,但是通過(guò)使用倒數(shù)鏈路,右邊的參數(shù)可以是線性的:(這里β0≡1/a和β1≡h/a)。在這種情況下,獵物捕獲率的標(biāo)準(zhǔn)差可能與平均速率大致成比例,建議使用Gamma分布作為反應(yīng),并完成模型設(shè)定。們不限于示例的簡(jiǎn)單直線形式,但可以有對(duì)于線性模型可能具有的線性預(yù)測(cè)器的任何結(jié)構(gòu)。2.1GLMs的理論GLM的估計(jì)和推理基于最大似然估計(jì)理論,盡管可能性的最大化需要迭代最小二乘法,與1.8.6節(jié)的方法

5、相關(guān)。本部分首先介紹指數(shù)分布族,它允許發(fā)展一種通用方法來(lái)最大化GLM的可能性。然后基于似然理論的一般結(jié)果(在本章末尾推導(dǎo))來(lái)討論GLM的推論。在本節(jié)中,區(qū)分反應(yīng)數(shù)據(jù)y和Y的觀察值的隨機(jī)變量有時(shí)很有用,所以它們?cè)诜?hào)上具有區(qū)別性:對(duì)于估計(jì)和估計(jì)值,它尚未完成。152.1.1指數(shù)族分布fθ(y)=exp[{yθ?b(θ)}/a(φ)+c(y,φ)],GLM中的反應(yīng)變量可以來(lái)自指數(shù)族的任何分布。如果一個(gè)分布的概率密度函數(shù)或概率質(zhì)量函數(shù)可以寫(xiě)成,則該分布屬于指數(shù)族分布15其中b,a和c是任意函數(shù),φ是任意的“尺度”參數(shù),并且θ被稱為分布的“典范參數(shù)”(在GLM上下文中,θ將完全

6、依賴于模型參數(shù)β,但是目前沒(méi)有必要做這個(gè)明確)。例如,很容易看出,正態(tài)分布是指數(shù)族的一員,因?yàn)?.表2.1給出了在R中為GLM實(shí)施的指數(shù)族成員的類似分解。用a,b和φ可以得到指數(shù)族分布的均值和方差的一般表達(dá)式。給定一個(gè)特定的y,θ的對(duì)數(shù)似然性僅僅只是將log[fθ(y)]視為θ的一個(gè)函數(shù)。那是.將l作為一個(gè)隨機(jī)變量來(lái)處理,通過(guò)用隨機(jī)變量Y替換特定的觀測(cè)值y,可以評(píng)估?l/?θ的期望值:使用E(?l/?θ)=0這個(gè)一般結(jié)果,(在θ取真值時(shí),參見(jiàn)2.4節(jié)中的(2.14))和重新排列意味著E(Y)=b0(θ)。(2.1)即任何指數(shù)族隨機(jī)變量的均值由bw.r.t.的一階導(dǎo)數(shù)給出

7、。θ,其中b的形式取決于特定的分布。該等式是將GLM的模型參數(shù)β與指數(shù)族的典范參數(shù)聯(lián)系起來(lái)的關(guān)鍵。在GLM中,參數(shù)β決定了反應(yīng)變量的均值,并且通過(guò)(2.1),它們決定了每個(gè)反應(yīng)觀測(cè)值的典范參數(shù)。,再次對(duì)似然性微分處理,并將其插入到一般結(jié)果中,E(?2l/?θ2)=-E[(?l/?θ)2](衍生物在真實(shí)θ值下計(jì)算,參見(jiàn)結(jié)果(2.16),第2.4節(jié)),重新安排第二個(gè)有用的一般結(jié)果:var(Y)=b00(θ)a(φ).a原則上可以是φ的任何函數(shù),并且當(dāng)與GLM一起工作時(shí),如果φ是已知的,處理任何形式的a都是沒(méi)有困難的。然而,當(dāng)φ未知,事情就會(huì)變

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。