資源描述:
《SAS第三十三課逐步回歸分析.doc》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、第三十三課逐步回歸分析一、逐步回歸分析在一個多元線性回歸模型中,并不是所有的自變量都與因變量有顯著關(guān)系,有時有些自變量的作用可以忽略。這就產(chǎn)生了怎樣從大量可能有關(guān)的自變量中挑選出對因變量有顯著影響的部分自變量的問題。在可能自變量的整個集合有40到60個,甚至更多的自變量的那些情況下,使用“最優(yōu)”子集算法可能并不行得通。那么,逐步產(chǎn)生回歸模型要含有的X變量子集的自動搜索方法,可能是有效的。逐步回歸方法可能是應(yīng)用最廣泛的自動搜索方法。這是在求適度“好”的自變量子集時,同所有可能回歸的方法比較,為節(jié)省計(jì)算工作量而產(chǎn)生的。本質(zhì)上說,這
2、種方法在每一步增加或剔除一個X變量時,產(chǎn)生一系列回歸模型。增加或剔除一個X變量的準(zhǔn)則,可以等價地用誤差平方和縮減量、偏相關(guān)系數(shù)或F統(tǒng)計(jì)量來表示。無疑選擇自變量要靠有關(guān)專業(yè)知識,但是作為起參謀作用的數(shù)學(xué)工具,往往是不容輕視的。通常在多元線性模型中,我們首先從有關(guān)專業(yè)角度選擇有關(guān)的為數(shù)眾多的因子,然后用數(shù)學(xué)方法從中選擇適當(dāng)?shù)淖蛹?。本?jié)介紹的逐步回歸法就是人們在實(shí)際問題中常用的,并且行之有效的方法。逐步回歸的基本思想是,將變量一個一個引入,引入變量的條件是偏回歸平方和經(jīng)檢驗(yàn)是顯著的,同時每引入一個新變量后,對已選入的變量要進(jìn)行逐個檢
3、驗(yàn),將不顯著變量剔除,這樣保證最后所得的變量子集中的所有變量都是顯著的。這樣經(jīng)若干步以后便得“最優(yōu)”變量子集。逐步回歸是這樣一種方法,使用它時每一步只有一個單獨(dú)的回歸因子引進(jìn)或從當(dāng)前的回歸模型中剔除。Efroymoson(1966)編的程序中,有兩個F水平,記作Fin和Fout,在每一步時,只有一個回歸因子,比如說Xi,如果剔除它可能引起RSS的減少不超過殘差均方MSE(即ESS/(N-k-1))的Fout倍,則將它剔除;這就是在當(dāng)前的回歸模型中,用來檢驗(yàn)i=0的F比=是小于或等于Fout。若剔除的變量需要選擇,則就選擇使RS
4、S減少最少的那一個(或等價的選擇F比最小的)。用這種方式如果沒有變量被剔除,則開始引進(jìn)一個回歸因子,比如Xj,如果引進(jìn)它后使RSS的增加,至少是殘差均方的Fin倍,則將它引進(jìn)。即若在當(dāng)前模型加Xj項(xiàng)后,為了檢驗(yàn)j=0的F比,F(xiàn)≥Fin時,則引進(jìn)Xj,其次,若引進(jìn)的變量需要選擇,則選擇F比最大的。程序按照上面的步驟開始擬合,當(dāng)沒有回歸因子能夠引進(jìn)模型時,該過程停止。二、變量選擇的方法若在回歸方程中增加自變量Xi,稱為“引入”變量Xi,將已在回歸方程中的自變量Xj從回歸方程中刪除,則稱為“剔除”變量Xj。無論引入變量或剔除變量,都
5、要利用F檢驗(yàn),將顯著的變量引入回歸方程,而將不顯著的從回歸方程中剔除。記引入變量F檢驗(yàn)的臨界值為Fin(進(jìn)),剔除變量F檢驗(yàn)的臨界值為Fout(出),一般取Fin≥Fout,它的確定原則一般是對k個自變量的m個(m≤k),則對顯著性水平df1=1,df2=的F分布表的值,記為F*,則取Fin=Fout=F*。一般來說也可以直接取Fin=Fout=2.0或2.5。當(dāng)然,為了回歸方程中還能夠多進(jìn)入一些自變量,甚至也可以取為1.0或1.5。12/121.變量增加法首先對全部k個自變量,分別對因變量Y建立一元回歸方程,并分別計(jì)算這k個
6、一元回歸方程的k個回歸系數(shù)F檢驗(yàn)值,記為{},選其最大的記為=max{},若有≥Fin,則首先將X1引入回歸方程,不失一般性,設(shè)Xi就是X1。接著考慮X1分別與X2,X3,...,Xk與因變量Y二元回歸方程,對于這k-1個回歸方程中X2,...,Xk的回歸系數(shù)進(jìn)行F檢驗(yàn),計(jì)算得的F值,并選其最大的F值,若≥Fin,則接著就將Xj引入回歸方程,不失一般性,設(shè)Xj就是X2。對已經(jīng)引入回歸方程的變量X1和X2,如同前面的方法做下去,直至所有末被引入方程的變量的F值均小于Fin時為止。這時的回歸方程就是最終選定的回歸方程。顯然,這種增
7、加法有一定的缺點(diǎn),主要是,它不能反映后來變化的情況。因?yàn)閷τ谀硞€自變量,它可能開始是顯著的,即將其引入到回歸方程,但是,隨著以后其他自變量的引入,它也可能又變?yōu)椴伙@著的了,但是,也并沒有將其及時從回歸方程中剔除掉。也就是增加變量法,只考慮引入而不考慮剔除。2.變量減少法與變量增加法相反,變量減少法是首先建立全部自變量X1,X2,...,Xk對因變變量Y的回歸方程,然后對k個回歸系數(shù)進(jìn)行F檢驗(yàn),記求得的F值為{},選其最小的記為=min{},若有≤Fout,則可以考慮將自變量Xi從回歸方程中剔除掉,不妨設(shè)Xi就取為X1。再對X2
8、,X3,...,Xk對因變量Y建立的回歸方程中重復(fù)上述過程,取最小的F值為,若有≤Fout,則將Xj也從回歸方程中剔除掉。不妨設(shè)Xj就是X2。重復(fù)前面的做法,直至在回歸方程中的自變量F檢驗(yàn)值均大于Fout,即沒有變量可剔除為止。這時的回歸方程就是最終的回歸方程。這種減少法也有