資源描述:
《《逐步回歸分析》PPT課件》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、1第6章逐步回歸分析多元逐步回歸方法的基本思路:自動(dòng)地從大量的可供選擇的變量中選取最重要的變量,據(jù)以建立回歸分析的預(yù)測(cè)或者解釋模型。變量選取的根據(jù)是自變量對(duì)因變量作用程度的大小:保留作用程度大的變量,剔除作用小的變量。是否選取一個(gè)變量,定量判據(jù)之一就是相關(guān)系數(shù)。假定有m個(gè)自變量,1個(gè)因變量(用y表示),則全部變量(包括自變量和因變量)之間的相關(guān)系數(shù)矩陣可以表作§6.1基本原理根據(jù)相關(guān)系數(shù)定義一個(gè)自變量的“貢獻(xiàn)”系數(shù)——按照貢獻(xiàn)系數(shù)的大小決定一個(gè)自變量的去留。式中Pj表示第j個(gè)自變量對(duì)因變量的貢獻(xiàn)系數(shù),Rjy表示第j個(gè)自變量與因變量的相關(guān)系數(shù),Rjj表示相關(guān)系
2、數(shù)矩陣對(duì)角線上第j行第j列元素(j=1,2,…,m)?!趌步計(jì)算的貢獻(xiàn)系數(shù)表示為在逐步回歸分析過(guò)程中,我們不僅要引入貢獻(xiàn)最大的自變量,同時(shí)要考慮剔除貢獻(xiàn)最小的因變量。因此,變量的存留與否又涉及到另一個(gè)統(tǒng)計(jì)判據(jù)——F檢驗(yàn)。設(shè)定一個(gè)顯著性水平α,查F檢驗(yàn)表,找到F檢驗(yàn)的臨界值Fα。在第l步計(jì)算中,假如第v個(gè)自變量的貢獻(xiàn)系數(shù)最大,數(shù)值為根據(jù)F檢驗(yàn)來(lái)判斷該自變量是否應(yīng)該被引入模型。式中h為尚且沒(méi)有被引入模型的變量序號(hào),v為選出的變量對(duì)應(yīng)的原始變量序號(hào)(v=1,2,…,m)。計(jì)算變量引入的F值判斷公式如下式中n為樣品個(gè)數(shù),l為計(jì)算步驟數(shù),為第v個(gè)變量第l步的貢獻(xiàn)系
3、數(shù),Ryy為因變量的自相關(guān)系數(shù)。如果Fin>Fα,則在這個(gè)顯著性水平下,該變量可以被引入模型,否則不要引入?!诘趌步計(jì)算中,如果第v個(gè)自變量的貢獻(xiàn)系數(shù)為——?jiǎng)t可以根據(jù)F檢驗(yàn)來(lái)判斷該自變量——包括已經(jīng)引入的變量——是否應(yīng)該被剔除。計(jì)算變量剔除的F值判斷公式如下如果Fout≤Fα,則在這個(gè)顯著性水平下,該變量應(yīng)該被剔除,否則就要保留。在整個(gè)逐步回歸計(jì)算過(guò)程中,變量的引入和剔除在兩端同時(shí)進(jìn)行。像這樣循環(huán)往復(fù)地計(jì)算,直到所有該引入的變量都被引入,該剔除的變量均被剔除為止。6.2.1數(shù)據(jù)準(zhǔn)備§6.2計(jì)算方法借助一個(gè)簡(jiǎn)單的實(shí)例說(shuō)明逐步回歸分析的方法。問(wèn)題是山東省淄博
4、市旅游業(yè)的發(fā)展分析,我們想搞清楚哪些因素影響淄博市的旅游總收入(表6-2-1)。所能考慮的因素包括:國(guó)內(nèi)游客數(shù)量、海外游客數(shù)量、第三產(chǎn)業(yè)的發(fā)展和人均GDP數(shù)量(m=4)。從1995年到2004年一共10個(gè)年份的數(shù)據(jù)(n=10)。這些因素都與旅游業(yè)總收入具有明確的關(guān)系。而且,作為自變量,它們彼此之間也有很強(qiáng)的關(guān)系。如果將這四個(gè)變量全部引入模型,就會(huì)導(dǎo)致多重共線性的問(wèn)題。為了得到簡(jiǎn)約、可靠的模型,需要借助逐步回歸分析技術(shù)。為了更為有效地說(shuō)明問(wèn)題,我們對(duì)表6-2-1的變量排列順序稍作調(diào)整(表6-2-2)利用表6-2-2的數(shù)據(jù),容易計(jì)算相關(guān)系數(shù),得到矩陣如下(表6-
5、2-3)。逐步回歸計(jì)算就是從這種相關(guān)系數(shù)矩陣出發(fā)的。將這個(gè)矩陣記為首先設(shè)定F統(tǒng)計(jì)量的臨界值。取顯著性水平α=0.05,我們有m=4個(gè)自變量,n=10個(gè)觀測(cè)值。不妨取回歸自由度為4、剩余自由度為n-m-1=10-4-1=5的臨界值為我們引入變量的F值下限,即取Fc(in)=5.192。另一方面,假定一個(gè)變量被淘汰,則有m’=3。我們?nèi)★@著性水平α=0.05、回歸自由度為3、剩余自由度為n-m’-1=10-3-1=6的F臨界值為剔除一個(gè)變量的上限,即取Fc(out)=4.757。這一步的計(jì)算可以分解為如下幾個(gè)步驟。6.2.2第一輪計(jì)算(1)計(jì)算自變量的貢獻(xiàn)系數(shù)(
6、2)找出最大和最小貢獻(xiàn)系數(shù)及其對(duì)應(yīng)的變量序號(hào)顯然,等于0.98246最大,對(duì)應(yīng)的變量序號(hào)v=1。因此,首先考慮引入的變量是國(guó)內(nèi)游客數(shù)量x1;等于0.92574最小,對(duì)應(yīng)的變量序號(hào)v=4。故這一步可以考慮將人均GDP即變量x4剔除。國(guó)內(nèi)游客數(shù)量這個(gè)變量是否能被引入模型,還要進(jìn)行一次F檢驗(yàn)。對(duì)于我們的問(wèn)題,n=10,現(xiàn)在計(jì)算第l=1步。(3)計(jì)算變量引入和剔除的F統(tǒng)計(jì)量根據(jù)這個(gè)數(shù)值遠(yuǎn)遠(yuǎn)大于我們?cè)O(shè)定的臨界值Fc(in)=5.192,因此變量x1可以被引入模型。接下來(lái)考慮排除貢獻(xiàn)系數(shù)最小的變量。但是否排除,要視Fout值而定。根據(jù)上述計(jì)算結(jié)果,0.92574最小,由
7、式下面公式這個(gè)數(shù)值高于剔除變量的F臨界值4.757,因此第一步不能剔除。作為對(duì)比,可以計(jì)算出所有變量的F變化值。例如,對(duì)于第二個(gè)變量“第三產(chǎn)業(yè)產(chǎn)值”,變量引入和剔除的F值分別為(4)相關(guān)系數(shù)矩陣變換,將化為假定第v個(gè)變量在第l步被引入,則相關(guān)系數(shù)矩陣的第v個(gè)元素稱為主元。矩陣變換是圍繞主元進(jìn)行的。相關(guān)系數(shù)矩陣的變換公式如下式中j、k分別為相關(guān)系數(shù)矩陣的行列編號(hào)。根據(jù)這個(gè)公式,第一步應(yīng)該改變非主元所在的行、列的元素(j≠v,k≠v),第二步改變主元所在的行的元素(j=v,k≠v),第三步改變主元所在的列的元素(j≠v,k=v),第四步改變主元本身(j=v,k=
8、v)。——首先變換非主元所在的行和列的元素。我們的主