logistic回歸模型

logistic回歸模型

ID:20658262

大小:748.00 KB

頁數(shù):20頁

時(shí)間:2018-10-14

logistic回歸模型_第1頁
logistic回歸模型_第2頁
logistic回歸模型_第3頁
logistic回歸模型_第4頁
logistic回歸模型_第5頁
資源描述:

《logistic回歸模型》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、word資料下載可編輯Logistic回歸模型1Logistic回歸模型的基本知識(shí)1.1Logistic模型簡介主要應(yīng)用在研究某些現(xiàn)象發(fā)生的概率,比如股票漲還是跌,公司成功或失敗的概率,以及討論概率與那些因素有關(guān)。顯然作為概率值,一定有,因此很難用線性模型描述概率與自變量的關(guān)系,另外如果接近兩個(gè)極端值,此時(shí)一般方法難以較好地反映p的微小變化。為此在構(gòu)建與自變量關(guān)系的模型時(shí),變換一下思路,不直接研究,而是研究的一個(gè)嚴(yán)格單調(diào)函數(shù),并要求在接近兩端值時(shí)對(duì)其微小變化很敏感。于是Logit變換被提出來:(1)其中當(dāng)從時(shí),從,這個(gè)變化范圍在模型數(shù)據(jù)處理上帶來很大的方便,解

2、決了上述面臨的難題。另外從函數(shù)的變形可得如下等價(jià)的公式:(2)模型(2)的基本要求是,因變量(y)是個(gè)二元變量,僅取0或1兩個(gè)值,而因變量取1的概率就是模型要研究的對(duì)象。而,其中表示影響的第個(gè)因素,它可以是定性變量也可以是定量變量,。為此模型(2)可以表述成:(3)顯然,故上述模型表明是的線性函數(shù)。此時(shí)我們稱滿足上面條件的回歸方程為Logistic線性回歸。Logistic線性回歸的主要問題是不能用普通的回歸方式來分析模型,一方面離散變量的誤差形式服從伯努利分布而非正態(tài)分布,即沒有正態(tài)性假設(shè)前提;二是二值變量方差不是常數(shù),有異方差性。不同于多元線性回歸的最小二

3、乘估計(jì)法則(殘差平方和最小),Logistic變換的非線性特征采用極大似然估計(jì)的方法尋求最佳的回歸系數(shù)。因此評(píng)價(jià)模型的擬合度的標(biāo)準(zhǔn)變?yōu)樗迫恢刀请x差平方和。定義1稱事件發(fā)生與不發(fā)生的概率比為優(yōu)勢(shì)比(比數(shù)比oddsratio簡稱OR),形式上表示為OR=(4)定義2Logistic回歸模型是通過極大似然估計(jì)法得到的,故模型好壞的評(píng)價(jià)準(zhǔn)則有似然值來表征,稱-2為估計(jì)值的擬合似然度,該值越小越好,如果模型完全擬合,則似然值專業(yè)技術(shù)資料word資料下載可編輯為1,而擬合似然度達(dá)到最小,值為0。其中表示的對(duì)數(shù)似然函數(shù)值。定義3記為估計(jì)值的方差-協(xié)方差矩陣,為的標(biāo)準(zhǔn)差矩陣

4、,則稱(5)為的Wald統(tǒng)計(jì)量,在大樣本時(shí),近似服從分布,通過它實(shí)現(xiàn)對(duì)系數(shù)的顯著性檢驗(yàn)。定義4假定方程中只有常數(shù)項(xiàng),即各變量的系數(shù)均為0,此時(shí)稱(6)為方程的顯著性似然統(tǒng)計(jì)量,在大樣本時(shí),近似服從分布。1.2Logistic模型的分類及主要問題根據(jù)研究設(shè)計(jì)的不同,Logistic回歸通常分為成組資料的非條件Logistic回歸和配對(duì)資料的條件Logistic回歸兩種大類。還兼具兩分類和多分類之分,分組與未分組之分,有序與無序變量之分。具體如下:兩分類非條件Logistic回歸:分組數(shù)據(jù)的Logistic回歸,未分組數(shù)據(jù)的Logistic回歸;多分類非條件Log

5、istic回歸:無序變量Logistic回歸,無序變量Logistic回歸;條件Logistic回歸:1:1型、1:M型和M:N型Logistic回歸。關(guān)于Logistic回歸,主要研究的內(nèi)容包括:1.模型參數(shù)的估計(jì)及檢驗(yàn)2.變量模型化及自變量的選擇3.模型評(píng)價(jià)和預(yù)測(cè)問題4.模型應(yīng)用2Logistic模型的參數(shù)估計(jì)及算法實(shí)現(xiàn)2.1兩分類分組數(shù)據(jù)非條件Logistic回歸因變量(反應(yīng)變量)分為兩類,取值有兩種,設(shè)事件發(fā)生記為y=1,不發(fā)生記為y=0,設(shè)自變量是分組數(shù)據(jù),取有限的幾個(gè)值;研究事件發(fā)生的概率與自變量的關(guān)系,其Logistic回歸方程為:或例2.1.1

6、分組數(shù)據(jù)[1]在一次住房展銷會(huì)上,與房地產(chǎn)商簽訂初步購房意向書的有n=325人,在隨后的3個(gè)月時(shí)間內(nèi),只有一部分顧客購買了房屋。購買房屋的顧客記為1,否則記為0。以顧客的年家庭收入(萬元)作為自變量,對(duì)數(shù)據(jù)統(tǒng)計(jì)后如表2.1.1所示,建立Logistic回歸模型。專業(yè)技術(shù)資料word資料下載可編輯表2.1.1購房分組數(shù)據(jù)序號(hào)年家庭收入X(萬元)簽訂意向人數(shù)實(shí)際購買人數(shù)11.525822.5321333.5582644.5522255.5432066.5392277.5281688.5211299.51510例2.1.2藥物療效數(shù)據(jù)[2]為考察某藥物療效,隨機(jī)抽取

7、220例病人并分配到治療組和對(duì)照組,治療組采用治療藥物,對(duì)照組采用安慰劑。治療一段時(shí)間后觀察病人的療效,得到表2.1.2數(shù)據(jù)。設(shè)y為療效指標(biāo)(y=1有效,y=0無效),為治療組指標(biāo)(1為治療組,0為對(duì)照組),為年齡組指標(biāo)(1為>45歲,0為其他)。表2.1.2藥物療效數(shù)據(jù)序號(hào)治療分組年齡分組有療效無效合計(jì)111321850210402060301213152400184058上述兩個(gè)例子數(shù)據(jù)都是經(jīng)過統(tǒng)計(jì)加工后的分組數(shù)據(jù),對(duì)此類數(shù)據(jù)進(jìn)行Logistic回歸,首先要明確應(yīng)變量對(duì)應(yīng)事件的發(fā)生概率如何確定和進(jìn)行Logit變換,其次才能建立Logistic回歸。為便于數(shù)

8、據(jù)處理,我們將此類數(shù)據(jù)的格式作個(gè)約定,

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。