資源描述:
《R語言學習系列32-回歸分析.doc》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、.27.回歸分析回歸分析是研究一個或多個變量(因變量)與另一些變量(自變量)之間關(guān)系的統(tǒng)計方法。主要思想是用最小二乘法原理擬合因變量與自變量間的最佳回歸模型(得到確定的表達式關(guān)系)。其作用是對因變量做解釋、控制、或預(yù)測?;貧w與擬合的區(qū)別:擬合側(cè)重于調(diào)整曲線的參數(shù),使得與數(shù)據(jù)相符;而回歸重在研究兩個變量或多個變量之間的關(guān)系。它可以用擬合的手法來研究兩個變量的關(guān)系,以及出現(xiàn)的誤差。回歸分析的步驟:(1)獲取自變量和因變量的觀測值;(2)繪制散點圖,并對異常數(shù)據(jù)做修正;(3)寫出帶未知參數(shù)的回歸方程;(4)確定回歸方程中參數(shù)值;
2、(5)假設(shè)檢驗,判斷回歸方程的擬合優(yōu)度;(6)進行解釋、控制、或預(yù)測。(一)一元線性回歸一、原理概述1.一元線性回歸模型:Y=?0+?1X+ε..其中X是自變量,Y是因變量,?0,?1是待求的未知參數(shù),?0也稱為截距;ε是隨機誤差項,也稱為殘差,通常要求ε滿足:①ε的均值為0;②ε的方差為?2;③協(xié)方差COV(εi,εj)=0,當i≠j時。即對所有的i≠j,εi與εj互不相關(guān)。用最小二乘法原理,得到最佳擬合效果的值:,2.模型檢驗(1)擬合優(yōu)度檢驗..計算R2,反映了自變量所能解釋的方差占總方差的百分比,值越大說明模型擬合
3、效果越好。通常可以認為當R2大于0.9時,所得到的回歸直線擬合得較好,而當R2小于0.5時,所得到的回歸直線很難說明變量之間的依賴關(guān)系。(2)回歸方程參數(shù)的檢驗回歸方程反應(yīng)了因變量Y隨自變量X變化而變化的規(guī)律,若?1=0,則Y不隨X變化,此時回歸方程無意義。所以,要做如下假設(shè)檢驗:H0:?1=0,H1:?1≠0;①F檢驗若?1=0為真,則回歸平方和RSS與殘差平方和ESS/(N-2)都是?2的無偏估計,因而采用F統(tǒng)計量:來檢驗原假設(shè)β1=0是否為真。②T檢驗對H0:?1=0的T檢驗與F檢驗是等價的(t2=F)。3.用回歸方
4、程做預(yù)測得到回歸方程后,預(yù)測X=x0處的Y值.的預(yù)測區(qū)間為:..其中tα/2的自由度為N-2.二、R語言實現(xiàn)使用lm()函數(shù)實現(xiàn),基本格式為:lm(formula,data,subset,weights,na.action,method="qr",...)其中,formula為要擬合的回歸模型的形式,一元線性回歸的格式為:y~x,y表示因變量,x表示自變量,若不想包含截距項,使用y~x-1;data為數(shù)據(jù)框或列表;subset選取部分子集;weights取NULL時表示最小二乘法擬合,若取值為權(quán)重向量,則用加權(quán)最小二乘法;
5、na.action設(shè)定是否忽略缺失值;method指定擬合的方法,目前只支持“qr”(QR分解),method=“model.frame”返回模型框架。三、實例例1現(xiàn)有埃及卡拉馬村莊每月記錄兒童身高的數(shù)據(jù),做一元線性回歸。datas<-data.frame(age=18:29,height=c(76.1,77,78.1,78.2,78.8,79.7,79.9,81.1,81.2,81.8,82.8,83.5))..datasageheight11876.121977.032078.142178.252278.862379.
6、772479.982581.192681.2102781.8112882.8122983.5plot(datas)#繪制散點圖res.reg<-lm(height~age,datas)#做一元線性回歸summary(res.reg)#輸出模型的匯總結(jié)果Residuals:Min1QMedian3QMax-0.27238-0.24248-0.027620.160140.47238Coefficients:EstimateStd.ErrortvaluePr(>
7、t
8、)(Intercept)64.92830.5084127.71
9、<2e-16***age0.63500.021429.664.43e-11***---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1..Residualstandarderror:0.256on10degreesoffreedomMultipleR-squared:0.9888,AdjustedR-squared:0.9876F-statistic:880on1and10DF,p-value:4.428e-11說明:輸出了殘差信息Residuals;回歸系數(shù)估計值、標準誤、
10、t統(tǒng)計量值、p值,可得到回歸方程:height=64.9283+0.6350*age回歸系數(shù)p值(<2e-16,4.43e-11)很小,非常顯著的≠0;***也表示顯著程度非常顯著。擬合優(yōu)度R2=0.9888>0.5,表示擬合程度很好。F統(tǒng)計量=880,p值=4.428e-11遠小于0.05,表示整個回