資源描述:
《logistic回歸模型》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、Logistic回歸模型1Logistic回歸模型的基本知識1.1Logistic模型簡介主要應(yīng)用在研究某些現(xiàn)象發(fā)生的概率,比如股票漲還是跌,公司成功或失敗的概率,以及討論概率與那些因素有關(guān)。顯然作為概率值,一定有,因此很難用線性模型描述概率與自變量的關(guān)系,另外如果接近兩個(gè)極端值,此時(shí)一般方法難以較好地反映p的微小變化。為此在構(gòu)建與自變量關(guān)系的模型時(shí),變換一下思路,不直接研究,而是研究的一個(gè)嚴(yán)格單調(diào)函數(shù),并要求在接近兩端值時(shí)對其微小變化很敏感。于是Logit變換被提出來:(1)其中當(dāng)從時(shí),從,這個(gè)變化范圍在模型數(shù)據(jù)處理上帶來很大
2、的方便,解決了上述面臨的難題。另外從函數(shù)的變形可得如下等價(jià)的公式:(2)模型(2)的基本要求是,因變量(y)是個(gè)二元變量,僅取0或1兩個(gè)值,而因變量取1的概率就是模型要研究的對象。而,其中表示影響的第個(gè)因素,它可以是定性變量也可以是定量變量,。為此模型(2)可以表述成:(3)顯然,故上述模型表明是的線性函數(shù)。此時(shí)我們稱滿足上面條件的回歸方程為Logistic線性回歸。Logistic線性回歸的主要問題是不能用普通的回歸方式來分析模型,一方面離散變量的誤差形式服從伯努利分布而非正態(tài)分布,即沒有正態(tài)性假設(shè)前提;二是二值變量方差不是常
3、數(shù),有異方差性。不同于多元線性回歸的最小二乘估計(jì)法則(殘差平方和最小),Logistic變換的非線性特征采用極大似然估計(jì)的方法尋求最佳的回歸系數(shù)。因此評價(jià)模型的擬合度的標(biāo)準(zhǔn)變?yōu)樗迫恢刀请x差平方和。定義1稱事件發(fā)生與不發(fā)生的概率比為優(yōu)勢比(比數(shù)比oddsratio簡稱OR),形式上表示為OR=(4)定義2Logistic回歸模型是通過極大似然估計(jì)法得到的,故模型好壞的評價(jià)準(zhǔn)則有似然值來表征,稱-2為估計(jì)值的擬合似然度,該值越小越好,如果模型完全擬合,則似然值為1,而擬合似然度達(dá)到最小,值為0。其中表示的對數(shù)似然函數(shù)值。定義3記為
4、估計(jì)值的方差-協(xié)方差矩陣,為的標(biāo)準(zhǔn)差矩陣,則稱(5)為的Wald統(tǒng)計(jì)量,在大樣本時(shí),近似服從分布,通過它實(shí)現(xiàn)對系數(shù)的顯著性檢驗(yàn)。定義4假定方程中只有常數(shù)項(xiàng),即各變量的系數(shù)均為0,此時(shí)稱(6)為方程的顯著性似然統(tǒng)計(jì)量,在大樣本時(shí),近似服從分布。1.2Logistic模型的分類及主要問題根據(jù)研究設(shè)計(jì)的不同,Logistic回歸通常分為成組資料的非條件Logistic回歸和配對資料的條件Logistic回歸兩種大類。還兼具兩分類和多分類之分,分組與未分組之分,有序與無序變量之分。具體如下:兩分類非條件Logistic回歸:分組數(shù)據(jù)的L
5、ogistic回歸,未分組數(shù)據(jù)的Logistic回歸;多分類非條件Logistic回歸:無序變量Logistic回歸,無序變量Logistic回歸;條件Logistic回歸:1:1型、1:M型和M:N型Logistic回歸。關(guān)于Logistic回歸,主要研究的內(nèi)容包括:1.模型參數(shù)的估計(jì)及檢驗(yàn)2.變量模型化及自變量的選擇3.模型評價(jià)和預(yù)測問題4.模型應(yīng)用2Logistic模型的參數(shù)估計(jì)及算法實(shí)現(xiàn)2.1兩分類分組數(shù)據(jù)非條件Logistic回歸因變量(反應(yīng)變量)分為兩類,取值有兩種,設(shè)事件發(fā)生記為y=1,不發(fā)生記為y=0,設(shè)自變量是
6、分組數(shù)據(jù),取有限的幾個(gè)值;研究事件發(fā)生的概率與自變量的關(guān)系,其Logistic回歸方程為:或例2.1.1分組數(shù)據(jù)[1]在一次住房展銷會(huì)上,與房地產(chǎn)商簽訂初步購房意向書的有n=325人,在隨后的3個(gè)月時(shí)間內(nèi),只有一部分顧客購買了房屋。購買房屋的顧客記為1,否則記為0。以顧客的年家庭收入(萬元)作為自變量,對數(shù)據(jù)統(tǒng)計(jì)后如表2.1.1所示,建立Logistic回歸模型。表2.1.1購房分組數(shù)據(jù)序號年家庭收入X(萬元)簽訂意向人數(shù)實(shí)際購買人數(shù)11.525822.5321333.5582644.5522255.5432066.539227
7、7.5281688.5211299.51510例2.1.2藥物療效數(shù)據(jù)[2]為考察某藥物療效,隨機(jī)抽取220例病人并分配到治療組和對照組,治療組采用治療藥物,對照組采用安慰劑。治療一段時(shí)間后觀察病人的療效,得到表2.1.2數(shù)據(jù)。設(shè)y為療效指標(biāo)(y=1有效,y=0無效),為治療組指標(biāo)(1為治療組,0為對照組),為年齡組指標(biāo)(1為>45歲,0為其他)。表2.1.2藥物療效數(shù)據(jù)序號治療分組年齡分組有療效無效合計(jì)111321850210402060301213152400184058上述兩個(gè)例子數(shù)據(jù)都是經(jīng)過統(tǒng)計(jì)加工后的分組數(shù)據(jù),對此類數(shù)
8、據(jù)進(jìn)行Logistic回歸,首先要明確應(yīng)變量對應(yīng)事件的發(fā)生概率如何確定和進(jìn)行Logit變換,其次才能建立Logistic回歸。為便于數(shù)據(jù)處理,我們將此類數(shù)據(jù)的格式作個(gè)約定,排列格式為(組序號,自變量,該組事件發(fā)生數(shù),該組總例數(shù))。表2.1.3分組數(shù)據(jù)的標(biāo)準(zhǔn)格式序