資源描述:
《逐步回歸分析課件.ppt》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、第6章逐步回歸分析1多元逐步回歸方法的基本思路:自動地從大量的可供選擇的變量中選取最重要的變量,據(jù)以建立回歸分析的預(yù)測或者解釋模型。變量選取的根據(jù)是自變量對因變量作用程度的大小:保留作用程度大的變量,剔除作用小的變量。是否選取一個變量,定量判據(jù)之一就是相關(guān)系數(shù)。假定有m個自變量,1個因變量(用y表示),則全部變量(包括自變量和因變量)之間的相關(guān)系數(shù)矩陣可以表作§6.1基本原理根據(jù)相關(guān)系數(shù)定義一個自變量的“貢獻(xiàn)”系數(shù)——按照貢獻(xiàn)系數(shù)的大小決定一個自變量的去留。式中Pj表示第j個自變量對因變量的貢獻(xiàn)系數(shù),Rjy表示第j
2、個自變量與因變量的相關(guān)系數(shù),Rjj表示相關(guān)系數(shù)矩陣對角線上第j行第j列元素(j=1,2,…,m)?!趌步計(jì)算的貢獻(xiàn)系數(shù)表示為在逐步回歸分析過程中,我們不僅要引入貢獻(xiàn)最大的自變量,同時要考慮剔除貢獻(xiàn)最小的因變量。因此,變量的存留與否又涉及到另一個統(tǒng)計(jì)判據(jù)——F檢驗(yàn)。設(shè)定一個顯著性水平α,查F檢驗(yàn)表,找到F檢驗(yàn)的臨界值Fα。在第l步計(jì)算中,假如第v個自變量的貢獻(xiàn)系數(shù)最大,數(shù)值為根據(jù)F檢驗(yàn)來判斷該自變量是否應(yīng)該被引入模型。式中h為尚且沒有被引入模型的變量序號,v為選出的變量對應(yīng)的原始變量序號(v=1,2,…,m)。計(jì)
3、算變量引入的F值判斷公式如下式中n為樣品個數(shù),l為計(jì)算步驟數(shù),為第v個變量第l步的貢獻(xiàn)系數(shù),Ryy為因變量的自相關(guān)系數(shù)。如果Fin>Fα,則在這個顯著性水平下,該變量可以被引入模型,否則不要引入?!诘趌步計(jì)算中,如果第v個自變量的貢獻(xiàn)系數(shù)為——則可以根據(jù)F檢驗(yàn)來判斷該自變量——包括已經(jīng)引入的變量——是否應(yīng)該被剔除。計(jì)算變量剔除的F值判斷公式如下如果Fout≤Fα,則在這個顯著性水平下,該變量應(yīng)該被剔除,否則就要保留。在整個逐步回歸計(jì)算過程中,變量的引入和剔除在兩端同時進(jìn)行。像這樣循環(huán)往復(fù)地計(jì)算,直到所有該引入的
4、變量都被引入,該剔除的變量均被剔除為止。6.2.1數(shù)據(jù)準(zhǔn)備§6.2計(jì)算方法借助一個簡單的實(shí)例說明逐步回歸分析的方法。問題是山東省淄博市旅游業(yè)的發(fā)展分析,我們想搞清楚哪些因素影響淄博市的旅游總收入(表6-2-1)。所能考慮的因素包括:國內(nèi)游客數(shù)量、海外游客數(shù)量、第三產(chǎn)業(yè)的發(fā)展和人均GDP數(shù)量(m=4)。從1995年到2004年一共10個年份的數(shù)據(jù)(n=10)。這些因素都與旅游業(yè)總收入具有明確的關(guān)系。而且,作為自變量,它們彼此之間也有很強(qiáng)的關(guān)系。如果將這四個變量全部引入模型,就會導(dǎo)致多重共線性的問題。為了得到簡約、可靠
5、的模型,需要借助逐步回歸分析技術(shù)。為了更為有效地說明問題,我們對表6-2-1的變量排列順序稍作調(diào)整(表6-2-2)利用表6-2-2的數(shù)據(jù),容易計(jì)算相關(guān)系數(shù),得到矩陣如下(表6-2-3)。逐步回歸計(jì)算就是從這種相關(guān)系數(shù)矩陣出發(fā)的。將這個矩陣記為首先設(shè)定F統(tǒng)計(jì)量的臨界值。取顯著性水平α=0.05,我們有m=4個自變量,n=10個觀測值。不妨取回歸自由度為4、剩余自由度為n-m-1=10-4-1=5的臨界值為我們引入變量的F值下限,即取Fc(in)=5.192。另一方面,假定一個變量被淘汰,則有m’=3。我們?nèi)★@著性水平
6、α=0.05、回歸自由度為3、剩余自由度為n-m’-1=10-3-1=6的F臨界值為剔除一個變量的上限,即取Fc(out)=4.757。這一步的計(jì)算可以分解為如下幾個步驟。6.2.2第一輪計(jì)算(1)計(jì)算自變量的貢獻(xiàn)系數(shù)(2)找出最大和最小貢獻(xiàn)系數(shù)及其對應(yīng)的變量序號顯然,等于0.98246最大,對應(yīng)的變量序號v=1。因此,首先考慮引入的變量是國內(nèi)游客數(shù)量x1;等于0.92574最小,對應(yīng)的變量序號v=4。故這一步可以考慮將人均GDP即變量x4剔除。國內(nèi)游客數(shù)量這個變量是否能被引入模型,還要進(jìn)行一次F檢驗(yàn)。對于我們的問
7、題,n=10,現(xiàn)在計(jì)算第l=1步。(3)計(jì)算變量引入和剔除的F統(tǒng)計(jì)量根據(jù)這個數(shù)值遠(yuǎn)遠(yuǎn)大于我們設(shè)定的臨界值Fc(in)=5.192,因此變量x1可以被引入模型。接下來考慮排除貢獻(xiàn)系數(shù)最小的變量。但是否排除,要視Fout值而定。根據(jù)上述計(jì)算結(jié)果,0.92574最小,由式下面公式這個數(shù)值高于剔除變量的F臨界值4.757,因此第一步不能剔除。作為對比,可以計(jì)算出所有變量的F變化值。例如,對于第二個變量“第三產(chǎn)業(yè)產(chǎn)值”,變量引入和剔除的F值分別為(4)相關(guān)系數(shù)矩陣變換,將化為假定第v個變量在第l步被引入,則相關(guān)系數(shù)矩陣的第v
8、個元素稱為主元。矩陣變換是圍繞主元進(jìn)行的。相關(guān)系數(shù)矩陣的變換公式如下式中j、k分別為相關(guān)系數(shù)矩陣的行列編號。根據(jù)這個公式,第一步應(yīng)該改變非主元所在的行、列的元素(j≠v,k≠v),第二步改變主元所在的行的元素(j=v,k≠v),第三步改變主元所在的列的元素(j≠v,k=v),第四步改變主元本身(j=v,k=v)?!紫茸儞Q非主元所在的行和列的元素。我們的主