資源描述:
《用MATLAB做逐步回歸.pptx》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、逐步回歸法“”班級:研1614學生:秦培歌社會學家認為犯罪與收入低、失業(yè)及人口規(guī)模有關,對20個城市的犯罪率(每10萬人中犯罪的人數(shù))與年收入低于5000美元家庭的百分比、失業(yè)率和人口總數(shù)(千人)進行了調查,結果如下表。序號111.216.56.2587213.420.56.4643340.726.39.363545.316.55.3692524.819.27.31248612.716.55.9643720.920.26.41964835.721.37.6153198.717.24.9713109.614.36.4749序號1114.518.16.0
2、78951226.923.17.47621315.719.15.827931436.224.78.67411518.118.66.56251628.924.98.38541714.917.96.77161825.822.48.69211921.720.28.45952025.716.96.73353(1)若~中至多只許選擇2個變量,最好的模型是什么?(2)包含3個自變量的模型比上面的模型好嗎?確定最終模型。分析:為了能夠有一個較直觀的認識,我們可以先分別作出犯罪率y與年收入低于5000美元家庭的百分比、失業(yè)率和人口總數(shù)(千人)之間關系的散點圖,根據(jù)大
3、致分布粗略估計各因素造成的影響大小,再通過逐步回歸法確定應該選擇哪幾個自變量作為模型。>>clc;>>clearall;>>y=[11.213.440.75.324.812.720.935.78.79.614.526.915.736.218.128.914.925.821.725.7];>>%犯罪率(人/十萬人)>>x1=[16.520.526.316.519.216.520.221.317.214.318.123.119.124.718.624.917.922.420.216.9];>>%低收入家庭百分比>>x2=[6.26.49.35.37.3
4、5.96.47.64.96.46.07.45.88.66.58.36.78.68.46.7];>>%失業(yè)率>>x3=[587643635692124864319641531713749789576227937416258547169215953353];>>%總人口數(shù)(千人)>>figure(1),plot(x1,y,'*');>>figure(2),plot(x2,y,'*');>>figure(3),plot(x3,y,'*');>>X1=[x1',x2',x3'];>>stepwise(X1,y)編寫程序如下:運行的結果與結論:犯罪率與低收入散
5、點圖犯罪率與失業(yè)率散點圖犯罪率與人口總數(shù)散點圖低收入與失業(yè)率作為自變量低收入與人口總數(shù)作為自變量失業(yè)率與人口總數(shù)作為自變量由上圖可以看出:在圖中可以明顯看出前兩圖的線性程度很好,而第三個圖的線性程度較差,從這個角度來說我們應該以失業(yè)率和低收入為自變量建立模型。我們也可以從相關性角度來選取自變量,可以看出:低收入與失業(yè)率作為自變量時的RMSE=4.64848;低收入與人口總數(shù)作為自變量時的RMSE=5.62245;失業(yè)率與人口總數(shù)作為自變量時的RMSE=5.04083;我們看到當?shù)褪杖肱c失業(yè)率作為自變量時RMSE最小,因此如果選擇兩個變量作為自變量的會
6、,它們是最適合的。并且可以得到三者的關系為:y=-34.0725+1.22393我們對同時選取三個自變量的模型進行分析:如果我們將其三者同時選為自變量,我們發(fā)現(xiàn),比低收入與失業(yè)率二者作為自變量時稍微小了一點。不過我們也發(fā)現(xiàn)此時的系數(shù)為幾乎為零,是可以忽略的。因此我們仍然選擇低收入與失業(yè)率兩個變量做最終的模型:得出結論:y=-34.0725+1.22393以上是用stepwise()命令完成逐步回歸,進而求得最優(yōu)的方程模型。最后我們用多元回歸程序檢驗一下求得線性方程的顯著性,即用相關系數(shù)法來測定它的擬合優(yōu)度。編寫程序如下:y=[11.213.440.7
7、5.324.812.720.935.78.79.614.526.915.736.218.128.914.925.821.725.7];[ab,stats,yy,ylr]=regress2(X,y)Table=stats{1},Pj=stats{2}運行可得:ab=-34.07251.22394.3989stats={6x7cell}[0.8955][4.6485][2x1double]yy=[]ylr=[]table='方差來源''偏差平方和''自由度''方差''F比''Fα''顯著性''x1'[100.2597][1][100.2597][4.63
8、99][4.4513]'顯著''x2'[179.5199][1][179.5199][8.3079][8.3