資源描述:
《R語(yǔ)言與回歸分析》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、R語(yǔ)言與回歸分析回歸模型是計(jì)量里最基礎(chǔ)也最常見的模型之一。究其原因,我想是因?yàn)樵趯?shí)際問題中我們并不知道總體分布如何,而且只有一組數(shù)據(jù),那么試著對(duì)數(shù)據(jù)作回歸分析將會(huì)是一個(gè)不錯(cuò)的選擇。一、簡(jiǎn)單線性回歸???簡(jiǎn)單的線性回歸涉及到兩個(gè)變量:一個(gè)是解釋變量,通常稱為x;另一個(gè)是被解釋變量,通常稱為y?;貧w會(huì)用常見的最小二乘算法擬合線性模型:yi=β0+β1xi+εi其中β0和β1是回歸系數(shù),εi表示誤差。在R中,你可以通過函數(shù)lm()去計(jì)算他。Lm()用法如下:lm(formula,data,subset,weig
2、hts,na.action,??method="qr",model=TRUE,x=FALSE,y=FALSE,qr=TRUE,??singular.ok=TRUE,contrasts=NULL,offset,...)????參數(shù)是formula模型公式,例如y~x。公式中波浪號(hào)(~)左側(cè)的是響應(yīng)變量,右側(cè)是預(yù)測(cè)變量。函數(shù)會(huì)估計(jì)回歸系數(shù)β0和β1,分別以截距(intercept)和x的系數(shù)表示。???有三種方式可以實(shí)現(xiàn)最小二乘法的簡(jiǎn)單線性回歸,假設(shè)數(shù)據(jù)wage1(可以通過names函數(shù)查看數(shù)據(jù)框各項(xiàng)名稱)(
3、1)lm(wage1$wage~wage1$educ+wage1$exper)(2)lm(wage~educ+exper,data=wage1)(3)attach(wage1)???lm(wage~educ+exper)#不要忘記處理完后用detach()解出關(guān)聯(lián)?????我們以數(shù)據(jù)wage1為例,可以看到工資與教育水平的線性關(guān)系:運(yùn)行下列代碼:library(foreign)A<-read.dta("D:/R/data/WAGE1.dta")#導(dǎo)入數(shù)據(jù)lm(wage~educ,data=A)>lm(wa
4、ge~educ,data=A)Call:lm(formula=wage~educ,data=A)Coefficients:(Intercept)????????educ?-0.9049??????0.5414??????當(dāng)然得到這些數(shù)據(jù)是不夠的,我們必須要有足夠的證據(jù)去證明我們所做的回歸的合理性。那么如何獲取回歸的信息呢??????嘗試運(yùn)行以下代碼:result<-lm(wage~educ,data=A)summary(result)我們可以得到以下結(jié)果:Call:lm(formula=wage~educ
5、,data=A)Residuals:???Min?????1Q????Median?????3Q????Max-5.3396??-2.1501???-0.9674????1.1921???16.6085Coefficients:???????????Estimate??Std.Error???tvalue?Pr(>
6、t
7、)???(Intercept)??-0.90485???0.68497??-1.321???0.187???educ????????0.54136???0.05325?10.167??<2
8、e-16***---Signif.codes:?0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:3.378on524degreesoffreedomMultipleR-squared:0.1648,????AdjustedR-squared:0.1632F-statistic:103.4on1and524DF,??p-value:<2.2e-16???????解讀上述結(jié)果,我們不難看出,單從判決系數(shù)R-squared上看,回歸結(jié)果是不理想的
9、,但是,從p值來看,我們還是可以得到回歸系數(shù)是很顯著地(注意,這里的P<0.05就可以認(rèn)為拒絕回歸系數(shù)為0,即回歸變量與被解釋變量無關(guān)的原擇假設(shè),選擇備擇假設(shè))所以說我們的回歸的效果不好但還是可以接受的。當(dāng)然,這一點(diǎn)也可以通過做散點(diǎn)圖給我們直觀的印象:???????但是影響薪酬的因素不只是education,可能還有其他的,比如工作經(jīng)驗(yàn),工作任期。為了更好地解釋影響薪酬的因素,我們就必須用到多元線性回歸。二、多元線性回歸????????還是使用lm函數(shù)。在公式的右側(cè)指定多個(gè)預(yù)測(cè)變量,用加號(hào)(+)連接:>l
10、m(y~u+v+w)????????顯然,多元線性回歸是簡(jiǎn)單的線性回歸的擴(kuò)展??梢杂卸鄠€(gè)預(yù)測(cè)變量,還是用OLS計(jì)算多項(xiàng)式的系數(shù)。三變量的回歸等同于這個(gè)線性模型:yi=β0+β1ui+β2vi+β3wi+εi???????在R中,簡(jiǎn)單線性回歸和多元線性回歸都是用lm函數(shù)。只要在模型公式的右側(cè)增加變量即可。輸出中會(huì)有擬合的模型的系數(shù):>result1<-lm(wage~educ+exper+tenure,data=A)>summa