資源描述:
《經(jīng)典線性回歸模型自變量選擇》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在教育資源-天天文庫。
1、§2.9自變量選擇信息時代的一個重要特征是數(shù)據(jù)便宜信息值錢,我們經(jīng)常要從海量數(shù)據(jù)中挖掘有用信息。比如影響產(chǎn)品質量的因素,從生產(chǎn)過程、員工培訓過程到原材料供應過程,可能多達幾百個,甚至上千個。對這些質量指標和影響因素制造商在日常生產(chǎn)管理過程中都有記錄。現(xiàn)在的問題是如何從這眾多的影響因素中找出影響產(chǎn)品質量的重要因素。有時只需判斷一個自變量對因變量是否有重要影響,而不需要了解它們之間的精確定量關系。比如判斷原材料供應對產(chǎn)品質量是否有重要影響比了解它們之間的精確定量關系更重要。線性回歸模型的自變量選擇就是用于有眾多自變量時識別重要自變量的方法。用于線性回歸模型自變量選擇的方法可分為兩類:
2、全局擇優(yōu)法和逐步回歸法。一、全局擇優(yōu)法全局擇優(yōu)法就是用衡量回歸模型與數(shù)據(jù)擬合程度的準則,從全部可能的回歸模型中選擇對數(shù)據(jù)擬合最優(yōu)的回歸模型。對于一個包含P個自變量的回歸問題,全部可能的回歸模型有個,全局擇優(yōu)法要求出每個回歸模型的準則值,然后找出最優(yōu)的回歸模型?;貧w模型對數(shù)據(jù)的擬合程度可用殘差平方和來表示。殘差平方和越小,模型擬合的越好。但殘差平方和的大小與因變量的計量單位有關,因此我們定義了決定系數(shù)。決定系數(shù)越大,模型擬合的越好。決定系數(shù)不僅與因變量的計量單位無關,而且能說明在因變量的變異中,歸功于自變量變化的部分所占比例。但不論是用殘差平方和還是用決定系數(shù)來度量線性擬合模型擬合
3、程度,都會得出模型中包含越多自變量擬合就越好的結論。但在樣本容量給定的情況下,自變量越多,模型就越復雜,模型參數(shù)估計就越不精確,導致模型應用的效果就越差。因此我們需要能綜合用殘差平方和表示的模型擬合精度和用模型中包含的自變量個數(shù)表示的模型復雜程度的準則,以便選擇出最優(yōu)的回歸模型?;貧w分析中用于選擇自變量的準則很多。由于殘差平方和RSSp和決定系數(shù)R2只考慮模型擬合精度,因而只能作為自變量個數(shù)相同時自變量選擇的準則。殘差均方s2和修正決定系數(shù)是一個綜合模型擬合精度和模型復雜程度的準則。綜合性準則除了殘差均方和修正決定系數(shù)外,還有如下一些準則:·MallowsCp準則其中,s2為包含
4、全部自變量的擬合模型的殘差均方,RSSp為當前擬合模型的殘差平方和,p為當前擬合模型的自變量個數(shù)。·信息準則信息準則根據(jù)公式計算,其中l(wèi)ogLik=-n{log(RSS/n)+log(2π)+1}/2為當前擬合模型的對數(shù)似然函數(shù),npar為當前擬合模型的參數(shù)個數(shù),當k=2時稱為AIC準則,當k=log(n)時稱為BIC準則。在小樣本情況下,AIC準則的表現(xiàn)不太好,為此人們提出的修正AIC準則AICc,其計算公式為R中計算當前擬合模型信息準則的函數(shù)有(其中fit為當前擬合模型對象)AIC(fit,k=2)k=2(缺省)時計算k=log(n)時計算extractAIC(fit,sca
5、le,k=2)指定scale=s2,計算當前擬合模型的Cp準則不指定scale,k=2(缺省)時計算不指定scale,k=log(n)時計算R的附加程序包qpcR中的函數(shù)AICc(fit)可計算當前擬合模型的修正信息準則·預測平方和準則其中,,表示刪除第i個案例后,用剩余的(n-1)個案例估計的擬合模型對第i個案例的預測誤差。R的附加程序包qpcR中的函數(shù)PRESS(fit)可計算預測平方和。此函數(shù)的返回值是一個列表,其中包含三個元素,(1)名字為stat的預測平方和;(2)名字為residuals的預測殘差向量;(3)名字為P.square的P2,其計算公式為:R的的附加程序包
6、leaps中的函數(shù)leaps()和regsubsets()均可用來完成全局最優(yōu)的選擇。leaps()依據(jù)Cp準則、修正R2準則和R2準則來選擇全局最優(yōu)回歸模型;regsubsets()函數(shù)則只能選出不同自變量個數(shù)的局部最優(yōu)的模型,我們再從這些局部的最優(yōu)模型中選出全局最優(yōu)的模型。例:高速公路事故數(shù)據(jù)library(alr3)attach(highway)y=log(Rate)x1=log(Len)x2=log(ADT)x3=log(Trks)x4=log((Sigs*Len+1)/Len)x5=Slimx6=Shldx7=Lanex8=Acptx9=Itgx10=Lwidx11=a
7、s.numeric(Hwy==1)x12=as.numeric(Hwy==2)x13=as.numeric(Hwy==3)考慮汽車意外事故率(事故數(shù)/百萬行車)與一些可能的相關之間的關系。數(shù)據(jù)包括1973年在明尼蘇達州的39段高速公路。ADT以千計的平均是流量(估計)Trks卡車容量在全部容量中的百分比Lane在兩個方向上的交通車道總數(shù)Acpt路段中每英里的進入點Sigs路段中每英里信號交換數(shù)Itg路段中每英里的快車道類型交換數(shù)Slim時速限制(在1973年)Len段的長度(英里