資源描述:
《《自變量的選擇》PPT課件》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、自變量的選擇回歸方程中的變量過多,會使資料的搜集、系統(tǒng)的運(yùn)作及模型的解釋都會遇到困難,如何將模型精簡而又能有很好的解釋能力是回歸分析面對的重要問題。自變量的選擇為分析自變量選擇失當(dāng)而出現(xiàn)的后果,我們首先舉一例分析。例如,分析通貨膨脹時(shí),我們考慮失業(yè)率與預(yù)期通貨膨脹率是影響通貨膨脹的主要因素,若其正確的模型形式是二元線性回歸模型,即:其中,Y表示通貨膨脹率(%);X1表示失業(yè)率(%);X2表示預(yù)期通貨膨脹率(%)。統(tǒng)計(jì)資料估計(jì)的回歸模型,計(jì)算機(jī)輸出結(jié)果如下自變量的選擇(一)確定自變量的原則原則:準(zhǔn)則:有
2、效性,獨(dú)立性,邊際貢獻(xiàn)(二)確定自變量的步驟(三)自變量篩選的方法1.所有回歸式的比較選取法(R2最大,MSE最?。?.分步回歸法包括(1)向前選取法(2)向后選取法(3)逐步選取法(1)向前法是選取進(jìn)入模型的解釋變量越選越多,每一步都是選取剩余解釋能力最強(qiáng)的一個(gè)變量進(jìn)入模型,但其解釋能力必須要通過事前定好的門檻(如顯著性水平為0.05)。第一步,開始時(shí)模式中沒有任何變量,接著第一步在所有變量中選取對Y最有解釋能力的進(jìn)入模型,其選取方式是找F值最大的。第二步,選取除了上面進(jìn)入模型的X之外的剩余變量中偏
3、F最大,且通過門檻者。。。。如:(2)向后選取法與向前選取法相反,在一開始時(shí)是所有變量都放在模型中,然后再將解釋能力差的變量一一去掉,直到所有放在模型中的變量其偏F值都大于預(yù)設(shè)的門檻。第一步,先計(jì)算所有偏F值,去掉最小且小于門檻值的變量。(3)逐步選取法是結(jié)合向前和向后選取法而成的。開始時(shí)一向前選取法進(jìn)入一個(gè)變量,而后每當(dāng)選入一個(gè)新變量后,就利用向后法試試看在模型中已存在的變量有無偏F值小于門檻的變量,若有,則將其排除之外,接著再進(jìn)行向前選取,若無,則繼續(xù)向前選取,這樣向前向后選取法輪流使用,直到?jīng)]有
4、變量可進(jìn)來,也沒有變量會被去除。自變量選擇中最常見的問題-----------存在共線性時(shí)的處理方法——引起解釋變量共線性的原因?qū)Χ嘀毓簿€性本質(zhì)的認(rèn)識,至少可從以下幾方面理解:由變量之間的性質(zhì)引起的。這時(shí),不管數(shù)據(jù)以什么形式取得,數(shù)據(jù)取樣是大是小,都會出現(xiàn)X2與X1高度相關(guān)數(shù)據(jù)問題引起的(多重共線數(shù)據(jù)點(diǎn))指即使使總體諸解釋變量沒有線性關(guān)系,但在具體樣本中仍可能有線性關(guān)系。情況一:當(dāng)樣本容量很小時(shí)。情況二:若建模所用的解釋變量是時(shí)序變量——引起解釋變量共線性的原因總量變量相關(guān),增量之間、人均量之間無關(guān)。
5、——引起解釋變量共線性的原因逐步分析估計(jì)檢驗(yàn)法這種方法首先計(jì)算因變量對每個(gè)解釋變量的回歸方程,得到基本回歸方程。再根據(jù)理論上、邏輯上的分析,參考其他先驗(yàn)信息以及統(tǒng)計(jì)檢驗(yàn)的結(jié)果來分析這些基本回歸方程,從中選出最合理的基本回歸方程。然后在這個(gè)選定的基本回歸方程中增加新的解釋變量,并根據(jù)統(tǒng)計(jì)分析作如下分類判。(1)如果新加入的解釋變量改進(jìn)了R2,且每個(gè)系數(shù)又是統(tǒng)計(jì)上顯著的,那么就認(rèn)為這個(gè)新變量是有用的,應(yīng)該保留。(2)如果新加入的解釋變量未能改進(jìn)R2,對其他系數(shù)值也沒有影響,則認(rèn)為新變量是多余的,應(yīng)予以舍棄
6、。(3)如果新加入的解釋變量不僅改變了R2的值,而且同時(shí)也顯著地影響其他系數(shù)的符號或大小,以至于使某些系數(shù)達(dá)到不能接受的程度,那么,可以斷言產(chǎn)生了嚴(yán)重的多重共線性。這個(gè)新的解釋變量也可能是重要的,但由于它與其他解釋變量之間存在線性相關(guān)關(guān)系,普通最小二乘法失效。需要特別注意的是,這時(shí)不能盲目略去這類變量,否則,可能造成擾動項(xiàng)與解釋變量相關(guān)。1.從變量上思考引出的去除不重要解釋變量的方法。去掉不重要的解釋變量雖然可以削弱共線性,卻容易導(dǎo)致模型設(shè)定誤差,因此有時(shí)會出現(xiàn)兩難選擇:若共線性存在,不能有效地估計(jì)模
7、型中的參數(shù),若去掉有關(guān)解釋變量,又會錯(cuò)誤地估計(jì)參數(shù)的真實(shí)數(shù)值。解決共線性的方法直接合并解釋變量當(dāng)模型中存在多重共線性時(shí),在不失去實(shí)際意義的前提下,可以把有關(guān)的解釋變量直接合并,從而降低或消除多重共線性。如果研究的目的是預(yù)測全國貨運(yùn)量,那么可以把重工業(yè)總產(chǎn)值和輕工業(yè)總產(chǎn)值合并為工業(yè)總產(chǎn)值,從而使模型中的解釋變量個(gè)數(shù)減少到兩個(gè)以消除多重共線性。甚至還可以與農(nóng)業(yè)總產(chǎn)值合并,變?yōu)楣まr(nóng)業(yè)總產(chǎn)值。解釋變量變成了一個(gè),自然消除了多重共線性。解決共線性方法2.從模型形式上思考引出的變量轉(zhuǎn)換法。變量轉(zhuǎn)換的主要形式有如下
8、兩種:(1)差分形式但這種變換也會出現(xiàn)新的問題:第一,即使上式中的隨機(jī)擾動項(xiàng)不存在序列相關(guān),差分后的隨機(jī)擾動項(xiàng)也可能存在序列相關(guān)。第二,差分變換導(dǎo)致丟失一個(gè)觀測值,在小樣本情況下,就不能不考慮自由度損失問題,另外還需要注意,差分變換不適用于截面數(shù)據(jù)。解決共線性方法2.從模型形式上思考引出的變量轉(zhuǎn)換法。變量轉(zhuǎn)換的主要形式有如下兩種:(2)解決共線性方法2.從模型形式上思考引出的變量轉(zhuǎn)換法。變量轉(zhuǎn)換的主要形式有如下兩種:(2)變量比形式這種方法適用于截面數(shù)據(jù)