資源描述:
《sas講義 第三十三課逐步回歸分析》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、dc4f7a3b832a87f7b22131028f10c6e3.doc商務(wù)數(shù)據(jù)分析電子商務(wù)系列第三十三課逐步回歸分析一、逐步回歸分析在一個(gè)多元線性回歸模型中,并不是所有的自變量都與因變量有顯著關(guān)系,有時(shí)有些自變量的作用可以忽略。這就產(chǎn)生了怎樣從大量可能有關(guān)的自變量中挑選出對(duì)因變量有顯著影響的部分自變量的問(wèn)題。在可能自變量的整個(gè)集合有40到60個(gè),甚至更多的自變量的那些情況下,使用“最優(yōu)”子集算法可能并不行得通。那么,逐步產(chǎn)生回歸模型要含有的X變量子集的自動(dòng)搜索方法,可能是有效的。逐步回歸方法可能是應(yīng)用最廣泛的自動(dòng)搜索方法。這是在求適度“好”的自變量子集時(shí),同所有可能回歸的
2、方法比較,為節(jié)省計(jì)算工作量而產(chǎn)生的。本質(zhì)上說(shuō),這種方法在每一步增加或剔除一個(gè)X變量時(shí),產(chǎn)生一系列回歸模型。增加或剔除一個(gè)X變量的準(zhǔn)則,可以等價(jià)地用誤差平方和縮減量、偏相關(guān)系數(shù)或F統(tǒng)計(jì)量來(lái)表示。無(wú)疑選擇自變量要靠有關(guān)專業(yè)知識(shí),但是作為起參謀作用的數(shù)學(xué)工具,往往是不容輕視的。通常在多元線性模型中,我們首先從有關(guān)專業(yè)角度選擇有關(guān)的為數(shù)眾多的因子,然后用數(shù)學(xué)方法從中選擇適當(dāng)?shù)淖蛹1竟?jié)介紹的逐步回歸法就是人們?cè)趯?shí)際問(wèn)題中常用的,并且行之有效的方法。逐步回歸的基本思想是,將變量一個(gè)一個(gè)引入,引入變量的條件是偏回歸平方和經(jīng)檢驗(yàn)是顯著的,同時(shí)每引入一個(gè)新變量后,對(duì)已選入的變量要進(jìn)行逐個(gè)檢
3、驗(yàn),將不顯著變量剔除,這樣保證最后所得的變量子集中的所有變量都是顯著的。這樣經(jīng)若干步以后便得“最優(yōu)”變量子集。逐步回歸是這樣一種方法,使用它時(shí)每一步只有一個(gè)單獨(dú)的回歸因子引進(jìn)或從當(dāng)前的回歸模型中剔除。Efroymoson(1966)編的程序中,有兩個(gè)F水平,記作Fin和Fout,在每一步時(shí),只有一個(gè)回歸因子,比如說(shuō)Xi,如果剔除它可能引起RSS的減少不超過(guò)殘差均方MSE(即ESS/(N-k-1))的Fout倍,則將它剔除;這就是在當(dāng)前的回歸模型中,用來(lái)檢驗(yàn)i=0的F比=是小于或等于Fout。若剔除的變量需要選擇,則就選擇使RSS減少最少的那一個(gè)(或等價(jià)的選擇F比最小的)。用
4、這種方式如果沒(méi)有變量被剔除,則開(kāi)始引進(jìn)一個(gè)回歸因子,比如Xj,如果引進(jìn)它后使RSS的增加,至少是殘差均方的Fin倍,則將它引進(jìn)。即若在當(dāng)前模型加X(jué)j項(xiàng)后,為了檢驗(yàn)j=0的F比,F(xiàn)≥Fin時(shí),則引進(jìn)Xj,其次,若引進(jìn)的變量需要選擇,則選擇F比最大的。程序按照上面的步驟開(kāi)始擬合,當(dāng)沒(méi)有回歸因子能夠引進(jìn)模型時(shí),該過(guò)程停止。二、變量選擇的方法若在回歸方程中增加自變量Xi,稱為“引入”變量Xi,將已在回歸方程中的自變量Xj從回歸方程中刪除,則稱為“剔除”變量Xj。無(wú)論引入變量或剔除變量,都要利用F檢驗(yàn),將顯著的變量引入回歸方程,而將不顯著的從回歸方程中剔除。記引入變量F檢驗(yàn)的臨界值為
5、Fin(進(jìn)),剔除變量F檢驗(yàn)的臨界值為Fout(出),一般取Fin≥Fout,它的確定原則一般是對(duì)k個(gè)自變量的m個(gè)(m≤k),則對(duì)顯著性水平df1=1,df2=的F分布表的值,記為F*,則取Fin=Fout=F*。一般來(lái)說(shuō)也可以直接取Fin=Fout=2.0或2.5上海財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息管理系IS/SHUFEPage12of12dc4f7a3b832a87f7b22131028f10c6e3.doc商務(wù)數(shù)據(jù)分析電子商務(wù)系列。當(dāng)然,為了回歸方程中還能夠多進(jìn)入一些自變量,甚至也可以取為1.0或1.5。1.變量增加法首先對(duì)全部k個(gè)自變量,分別對(duì)因變量Y建立一元回歸方程,并分別計(jì)算這
6、k個(gè)一元回歸方程的k個(gè)回歸系數(shù)F檢驗(yàn)值,記為{},選其最大的記為=max{},若有≥Fin,則首先將X1引入回歸方程,不失一般性,設(shè)Xi就是X1。接著考慮X1分別與X2,X3,...,Xk與因變量Y二元回歸方程,對(duì)于這k-1個(gè)回歸方程中X2,...,Xk的回歸系數(shù)進(jìn)行F檢驗(yàn),計(jì)算得的F值,并選其最大的F值,若≥Fin,則接著就將Xj引入回歸方程,不失一般性,設(shè)Xj就是X2。對(duì)已經(jīng)引入回歸方程的變量X1和X2,如同前面的方法做下去,直至所有末被引入方程的變量的F值均小于Fin時(shí)為止。這時(shí)的回歸方程就是最終選定的回歸方程。顯然,這種增加法有一定的缺點(diǎn),主要是,它不能反映后來(lái)變化
7、的情況。因?yàn)閷?duì)于某個(gè)自變量,它可能開(kāi)始是顯著的,即將其引入到回歸方程,但是,隨著以后其他自變量的引入,它也可能又變?yōu)椴伙@著的了,但是,也并沒(méi)有將其及時(shí)從回歸方程中剔除掉。也就是增加變量法,只考慮引入而不考慮剔除。2.變量減少法與變量增加法相反,變量減少法是首先建立全部自變量X1,X2,...,Xk對(duì)因變變量Y的回歸方程,然后對(duì)k個(gè)回歸系數(shù)進(jìn)行F檢驗(yàn),記求得的F值為{},選其最小的記為=min{},若有≤Fout,則可以考慮將自變量Xi從回歸方程中剔除掉,不妨設(shè)Xi就取為X1。再對(duì)X2,X3,...,Xk對(duì)因變量Y建