資源描述:
《二項logistic 回歸參數(shù)最大似然估計的計算》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、二項Logistic回歸參數(shù)最大似然估計的計算1Logistic回歸的基本思想在地震風(fēng)險評估中,研究者往往關(guān)心地震發(fā)生時,地表發(fā)生破裂的概率,地表破裂是由哪些因素引起的等問題。利用以往的相關(guān)數(shù)據(jù)找出統(tǒng)計規(guī)律性來解決這些問題,實質(zhì)上可以轉(zhuǎn)化為一個多元回歸分析問題,其中,為隨機變量。由于因變量的取值只有兩個狀態(tài):破裂()和不破裂(),因此直接尋找因變量和自變量的關(guān)系非常困難。于是,可以把研究問題轉(zhuǎn)換一個角度,不去直接分析和的關(guān)系,而是分析條件概率和的關(guān)系,這等價于尋找一個取值在0到1之間的連續(xù)函數(shù)。數(shù)學(xué)上滿足這種條件的函數(shù)存在
2、且不唯一,Logistic回歸就是滿足這種要求的函數(shù)之一。和線性回歸分析類似,Logistic回歸基本原理就是利用一組觀測數(shù)據(jù)擬合一個Logistic模型,然后借助這個模型來揭示總體中若干個自變量與一個因變量取每個值的概率之間的依存關(guān)系,并評估用這一模型模擬相關(guān)事物變化規(guī)律的準(zhǔn)確性。具體地說,Logistic回歸分析可以從統(tǒng)計意義上確定在消除了其它變量的影響后,每一個自變量的變化是否引起因變量取某個值的概率的變化,并估計出在其它自變量固定不變的情況下,每個自變量對因變量取某個值的概率的數(shù)值影響大小。在使用Logistic回
3、歸分析前,需要明確模型的使用條件:1、要求因變量是分類變量,包括順序變量和名義變量,不管哪種變量,都要用數(shù)字表示它,如可以令表示地震發(fā)生時地表破裂,令表示地震發(fā)生時地表未破裂;2、自變量可以是(i)數(shù)值型連續(xù)變量,如地震的震級,(ii)順序變量,如覆蓋層的厚度分組(10-20m,20-40m等),(iii)名義變量,如地震類型,可令走滑型地震為1,正斷型地震為2,逆沖型地震為3。2多元二項Logistic回歸模型的定義由于地震發(fā)生時地表是否破裂受到多個因素的影響,故引入多元Logistic回歸模型。假設(shè)因變量是一個取值為1
4、和0的二值變量,是影響的個因素,回歸系數(shù),則關(guān)于的元Logistic回歸模型定義為(1)由式(1)可得(2)3Logistic回歸參數(shù)估計我們用最大似然估計方法去求模型的參數(shù)。再假設(shè)從總體中抽取一個容量為的隨機樣本,,其中,,則有似然函數(shù)為(3)兩邊取對數(shù),整理可得(4)寫成向量形式為(4’)為求式(4)的駐點,可求對數(shù)似然函數(shù)關(guān)于的似然方程組為(5)寫成向量形式為式(5)為非線性方程組,一般情況下沒有解析解,可以用Newton-Raphson迭代方法求其數(shù)值解,令(6)則關(guān)于的Jacobian矩陣為(7)向量形式為(7’
5、)根究Newton-Raphson方法的原理,可得參數(shù)迭代公式為(8)算法如下:Step1:給定參數(shù)的初值參數(shù)和誤差容許精度,令;Step2:計算;Step3:若或,即滿足容許的精度,則結(jié)束,否則更新參數(shù),,轉(zhuǎn)至Step2.當(dāng)給定地震發(fā)生時,地表破裂是否發(fā)生的數(shù)據(jù)時,根據(jù)上面的算法,可以求出參數(shù)的最大似然估計。我們按照上述算法用MATLAB編寫了多元Logistic回歸參數(shù)估計的程序,可以給出參數(shù)估計值,詳見附錄。附錄1用Newton-Raphson方法求解參數(shù),附錄2用直接優(yōu)化對數(shù)似然函數(shù)方法求解參數(shù),附錄3用MATLA
6、B自帶的廣義回歸模型估計參數(shù)。附錄4是別人做的Logistic回歸的例子,用的軟件是SAS(一種經(jīng)過美國FDA認(rèn)證的昂貴的商業(yè)統(tǒng)計軟件)得到的結(jié)果。附錄5是SPSS操作的過程和得到的結(jié)果。附錄1:MatlabFilesforLogisticRegression%假設(shè)我們有一個數(shù)據(jù),45個觀測值,四個變量,包括:%1.age(年齡,數(shù)值型);%2.vision(視力狀況,分類型,1表示好,0表示有問題);%3.drive(駕車教育,分類型,1表示參加過駕車教育,0表示沒有)和%4.一個分類型輸出變量accident(去年是否
7、出過事故,1表示出過事故,0表示沒有)。%我們的目的就是要考察前三個變量與發(fā)生事故的關(guān)系。%第1至4列分別為accidentagevisiondrive;clear,clc,closealldata=[1171114400148101550017511035010421105700028010200103810045010471105200055011681011810168001481111700170111721013501119101621003911040110550006801025100170004501044
8、01067000550116110119101690012311119001721117410131011161016110];Y=data(:,1);X=data(:,3:4);beta0=[0.110;1.7137;-1.5000]+1*rand(3,1);%rand(4,1);%猜測的初始值%自帶