資源描述:
《二項(xiàng)logistic 回歸參數(shù)最大似然估計(jì)的計(jì)算》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、二項(xiàng)Logistic回歸參數(shù)最大似然估計(jì)的計(jì)算1Logistic回歸的基本思想在地震風(fēng)險(xiǎn)評(píng)估中,研究者往往關(guān)心地震發(fā)生時(shí),地表發(fā)生破裂的概率,地表破裂是由哪些因素引起的等問題。利用以往的相關(guān)數(shù)據(jù)找出統(tǒng)計(jì)規(guī)律性來解決這些問題,實(shí)質(zhì)上可以轉(zhuǎn)化為一個(gè)多元回歸分析問題,其中,為隨機(jī)變量。由于因變量的取值只有兩個(gè)狀態(tài):破裂()和不破裂(),因此直接尋找因變量和自變量的關(guān)系非常困難。于是,可以把研究問題轉(zhuǎn)換一個(gè)角度,不去直接分析和的關(guān)系,而是分析條件概率和的關(guān)系,這等價(jià)于尋找一個(gè)取值在0到1之間的連續(xù)函數(shù)。數(shù)學(xué)上滿足這種條件的函數(shù)存在
2、且不唯一,Logistic回歸就是滿足這種要求的函數(shù)之一。和線性回歸分析類似,Logistic回歸基本原理就是利用一組觀測數(shù)據(jù)擬合一個(gè)Logistic模型,然后借助這個(gè)模型來揭示總體中若干個(gè)自變量與一個(gè)因變量取每個(gè)值的概率之間的依存關(guān)系,并評(píng)估用這一模型模擬相關(guān)事物變化規(guī)律的準(zhǔn)確性。具體地說,Logistic回歸分析可以從統(tǒng)計(jì)意義上確定在消除了其它變量的影響后,每一個(gè)自變量的變化是否引起因變量取某個(gè)值的概率的變化,并估計(jì)出在其它自變量固定不變的情況下,每個(gè)自變量對(duì)因變量取某個(gè)值的概率的數(shù)值影響大小。在使用Logistic回
3、歸分析前,需要明確模型的使用條件:1、要求因變量是分類變量,包括順序變量和名義變量,不管哪種變量,都要用數(shù)字表示它,如可以令表示地震發(fā)生時(shí)地表破裂,令表示地震發(fā)生時(shí)地表未破裂;2、自變量可以是(i)數(shù)值型連續(xù)變量,如地震的震級(jí),(ii)順序變量,如覆蓋層的厚度分組(10-20m,20-40m等),(iii)名義變量,如地震類型,可令走滑型地震為1,正斷型地震為2,逆沖型地震為3。2多元二項(xiàng)Logistic回歸模型的定義由于地震發(fā)生時(shí)地表是否破裂受到多個(gè)因素的影響,故引入多元Logistic回歸模型。假設(shè)因變量是一個(gè)取值為1
4、和0的二值變量,是影響的個(gè)因素,回歸系數(shù),則關(guān)于的元Logistic回歸模型定義為(1)由式(1)可得(2)3Logistic回歸參數(shù)估計(jì)我們用最大似然估計(jì)方法去求模型的參數(shù)。再假設(shè)從總體中抽取一個(gè)容量為的隨機(jī)樣本,,其中,,則有似然函數(shù)為(3)兩邊取對(duì)數(shù),整理可得(4)寫成向量形式為(4’)為求式(4)的駐點(diǎn),可求對(duì)數(shù)似然函數(shù)關(guān)于的似然方程組為(5)寫成向量形式為式(5)為非線性方程組,一般情況下沒有解析解,可以用Newton-Raphson迭代方法求其數(shù)值解,令(6)則關(guān)于的Jacobian矩陣為(7)向量形式為(7’
5、)根究Newton-Raphson方法的原理,可得參數(shù)迭代公式為(8)算法如下:Step1:給定參數(shù)的初值參數(shù)和誤差容許精度,令;Step2:計(jì)算;Step3:若或,即滿足容許的精度,則結(jié)束,否則更新參數(shù),,轉(zhuǎn)至Step2.當(dāng)給定地震發(fā)生時(shí),地表破裂是否發(fā)生的數(shù)據(jù)時(shí),根據(jù)上面的算法,可以求出參數(shù)的最大似然估計(jì)。我們按照上述算法用MATLAB編寫了多元Logistic回歸參數(shù)估計(jì)的程序,可以給出參數(shù)估計(jì)值,詳見附錄。附錄1用Newton-Raphson方法求解參數(shù),附錄2用直接優(yōu)化對(duì)數(shù)似然函數(shù)方法求解參數(shù),附錄3用MATLA
6、B自帶的廣義回歸模型估計(jì)參數(shù)。附錄4是別人做的Logistic回歸的例子,用的軟件是SAS(一種經(jīng)過美國FDA認(rèn)證的昂貴的商業(yè)統(tǒng)計(jì)軟件)得到的結(jié)果。附錄5是SPSS操作的過程和得到的結(jié)果。附錄1:MatlabFilesforLogisticRegression%假設(shè)我們有一個(gè)數(shù)據(jù),45個(gè)觀測值,四個(gè)變量,包括:%1.age(年齡,數(shù)值型);%2.vision(視力狀況,分類型,1表示好,0表示有問題);%3.drive(駕車教育,分類型,1表示參加過駕車教育,0表示沒有)和%4.一個(gè)分類型輸出變量accident(去年是否
7、出過事故,1表示出過事故,0表示沒有)。%我們的目的就是要考察前三個(gè)變量與發(fā)生事故的關(guān)系。%第1至4列分別為accidentagevisiondrive;clear,clc,closealldata=[1171114400148101550017511035010421105700028010200103810045010471105200055011681011810168001481111700170111721013501119101621003911040110550006801025100170004501044
8、01067000550116110119101690012311119001721117410131011161016110];Y=data(:,1);X=data(:,3:4);beta0=[0.110;1.7137;-1.5000]+1*rand(3,1);%rand(4,1);%猜測的初始值%自帶