logistic回歸模型

logistic回歸模型

ID:21140131

大小:736.00 KB

頁數(shù):19頁

時間:2018-10-19

logistic回歸模型_第1頁
logistic回歸模型_第2頁
logistic回歸模型_第3頁
logistic回歸模型_第4頁
logistic回歸模型_第5頁
資源描述:

《logistic回歸模型》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫

1、Logistic回歸模型1Logistic回歸模型的基本知識1.1Logistic模型簡介主要應(yīng)用在研究某些現(xiàn)象發(fā)生的概率,比如股票漲還是跌,公司成功或失敗的概率,以及討論概率與那些因素有關(guān)。顯然作為概率值,一定有,因此很難用線性模型描述概率與自變量的關(guān)系,另外如果接近兩個極端值,此時一般方法難以較好地反映p的微小變化。為此在構(gòu)建與自變量關(guān)系的模型時,變換一下思路,不直接研究,而是研究的一個嚴格單調(diào)函數(shù),并要求在接近兩端值時對其微小變化很敏感。于是Logit變換被提出來:(1)其中當(dāng)從時,從,這個變化范

2、圍在模型數(shù)據(jù)處理上帶來很大的方便,解決了上述面臨的難題。另外從函數(shù)的變形可得如下等價的公式:(2)模型(2)的基本要求是,因變量(y)是個二元變量,僅取0或1兩個值,而因變量取1的概率就是模型要研究的對象。而,其中表示影響的第個因素,它可以是定性變量也可以是定量變量,。為此模型(2)可以表述成:(3)顯然,故上述模型表明是的線性函數(shù)。此時我們稱滿足上面條件的回歸方程為Logistic線性回歸。Logistic線性回歸的主要問題是不能用普通的回歸方式來分析模型,一方面離散變量的誤差形式服從伯努利分布而非正

3、態(tài)分布,即沒有正態(tài)性假設(shè)前提;二是二值變量方差不是常數(shù),有異方差性。不同于多元線性回歸的最小二乘估計法則(殘差平方和最小),Logistic變換的非線性特征采用極大似然估計的方法尋求最佳的回歸系數(shù)。因此評價模型的擬合度的標準變?yōu)樗迫恢刀请x差平方和。定義1稱事件發(fā)生與不發(fā)生的概率比為優(yōu)勢比(比數(shù)比oddsratio簡稱OR),形式上表示為OR=(4)定義2Logistic回歸模型是通過極大似然估計法得到的,故模型好壞的評價準則有似然值來表征,稱-2為估計值的擬合似然度,該值越小越好,如果模型完全擬合,則

4、似然值為1,而擬合似然度達到最小,值為0。其中表示的對數(shù)似然函數(shù)值。定義3記為估計值的方差-協(xié)方差矩陣,為的標準差矩陣,則稱(5)為的Wald統(tǒng)計量,在大樣本時,近似服從分布,通過它實現(xiàn)對系數(shù)的顯著性檢驗。定義4假定方程中只有常數(shù)項,即各變量的系數(shù)均為0,此時稱(6)為方程的顯著性似然統(tǒng)計量,在大樣本時,近似服從分布。1.2Logistic模型的分類及主要問題根據(jù)研究設(shè)計的不同,Logistic回歸通常分為成組資料的非條件Logistic回歸和配對資料的條件Logistic回歸兩種大類。還兼具兩分類和多

5、分類之分,分組與未分組之分,有序與無序變量之分。具體如下:兩分類非條件Logistic回歸:分組數(shù)據(jù)的Logistic回歸,未分組數(shù)據(jù)的Logistic回歸;多分類非條件Logistic回歸:無序變量Logistic回歸,無序變量Logistic回歸;條件Logistic回歸:1:1型、1:M型和M:N型Logistic回歸。關(guān)于Logistic回歸,主要研究的內(nèi)容包括:1.模型參數(shù)的估計及檢驗2.變量模型化及自變量的選擇3.模型評價和預(yù)測問題4.模型應(yīng)用2Logistic模型的參數(shù)估計及算法實現(xiàn)2.1

6、兩分類分組數(shù)據(jù)非條件Logistic回歸因變量(反應(yīng)變量)分為兩類,取值有兩種,設(shè)事件發(fā)生記為y=1,不發(fā)生記為y=0,設(shè)自變量是分組數(shù)據(jù),取有限的幾個值;研究事件發(fā)生的概率與自變量的關(guān)系,其Logistic回歸方程為:或例2.1.1分組數(shù)據(jù)[1]在一次住房展銷會上,與房地產(chǎn)商簽訂初步購房意向書的有n=325人,在隨后的3個月時間內(nèi),只有一部分顧客購買了房屋。購買房屋的顧客記為1,否則記為0。以顧客的年家庭收入(萬元)作為自變量,對數(shù)據(jù)統(tǒng)計后如表2.1.1所示,建立Logistic回歸模型。表2.1.1

7、購房分組數(shù)據(jù)序號年家庭收入X(萬元)簽訂意向人數(shù)實際購買人數(shù)11.525822.5321333.5582644.5522255.5432066.5392277.5281688.5211299.51510例2.1.2藥物療效數(shù)據(jù)[2]為考察某藥物療效,隨機抽取220例病人并分配到治療組和對照組,治療組采用治療藥物,對照組采用安慰劑。治療一段時間后觀察病人的療效,得到表2.1.2數(shù)據(jù)。設(shè)y為療效指標(y=1有效,y=0無效),為治療組指標(1為治療組,0為對照組),為年齡組指標(1為>45歲,0為其他)。表

8、2.1.2藥物療效數(shù)據(jù)序號治療分組年齡分組有療效無效合計111321850210402060301213152400184058上述兩個例子數(shù)據(jù)都是經(jīng)過統(tǒng)計加工后的分組數(shù)據(jù),對此類數(shù)據(jù)進行Logistic回歸,首先要明確應(yīng)變量對應(yīng)事件的發(fā)生概率如何確定和進行Logit變換,其次才能建立Logistic回歸。為便于數(shù)據(jù)處理,我們將此類數(shù)據(jù)的格式作個約定,排列格式為(組序號,自變量,該組事件發(fā)生數(shù),該組總例數(shù))。表2.1.3分組數(shù)據(jù)的標準格式序

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。