資源描述:
《主成分分析ppt課件.ppt》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、4主成分分析1主成分分析主成分回歸立體數(shù)據(jù)表的主成分分析2一項(xiàng)十分著名的工作是美國的統(tǒng)計(jì)學(xué)家斯通(stone)在1947年關(guān)于國民經(jīng)濟(jì)的研究。他曾利用美國1929一1938年各年的數(shù)據(jù),得到了17個(gè)反映國民收入與支出的變量要素,例如雇主補(bǔ)貼、消費(fèi)資料和生產(chǎn)資料、純公共支出、凈增庫存、股息、利息外貿(mào)平衡等等?!?.1基本思想3在進(jìn)行主成分分析后,竟以97.4%的精度,用三新變量就取代了原17個(gè)變量。根據(jù)經(jīng)濟(jì)學(xué)知識,斯通給這三個(gè)新變量分別命名為總收入F1、總收入變化率F2和經(jīng)濟(jì)發(fā)展或衰退的趨勢F3。更有意思的是,這三個(gè)
2、變量其實(shí)都是可以直接測量的。斯通將他得到的主成分與實(shí)際測量的總收入I、總收入變化率?I以及時(shí)間t因素做相關(guān)分析,得到下表:4F1F2F3iitF11F201F3001i0.995-0.0410.057li-0.0560.948-0.124-0.102lt-0.369-0.282-0.836-0.414-0.11215主成分分析是把各變量之間互相關(guān)聯(lián)的復(fù)雜關(guān)系進(jìn)行簡化分析的方法。在社會經(jīng)濟(jì)的研究中,為了全面系統(tǒng)的分析和研究問題,必須考慮許多經(jīng)濟(jì)指標(biāo),這些指標(biāo)能從不同的側(cè)面反映我們所研究的對象的特征,但在某種程度上存在
3、信息的重疊,具有一定的相關(guān)性。6主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原則下,對這種多變量的截面數(shù)據(jù)表進(jìn)行最佳綜合簡化,也就是說,對高維變量空間進(jìn)行降維處理。很顯然,識辨系統(tǒng)在一個(gè)低維空間要比在一個(gè)高維空間容易得多。7(1)基于相關(guān)系數(shù)矩陣還是基于協(xié)方差矩陣做主成分分析。當(dāng)分析中所選擇的經(jīng)濟(jì)變量具有不同的量綱,變量水平差異很大,應(yīng)該選擇基于相關(guān)系數(shù)矩陣的主成分分析。在力求數(shù)據(jù)信息丟失最少的原則下,對高維的變量空間降維,即研究指標(biāo)體系的少數(shù)幾個(gè)線性組合,并且這幾個(gè)線性組合所構(gòu)成的綜合指標(biāo)將盡可能多地保留原來指標(biāo)變異方
4、面的信息。這些綜合指標(biāo)就稱為主成分。要討論的問題是:8(2)選擇幾個(gè)主成分。主成分分析的目的是簡化變量,一般情況下主成分的個(gè)數(shù)應(yīng)該小于原始變量的個(gè)數(shù)。關(guān)于保留幾個(gè)主成分,應(yīng)該權(quán)衡主成分個(gè)數(shù)和保留的信息。(3)如何解釋主成分所包含的經(jīng)濟(jì)意義。9§4.2數(shù)學(xué)模型與幾何解釋假設(shè)我們所討論的實(shí)際問題中,有p個(gè)指標(biāo),我們把這p個(gè)指標(biāo)看作p個(gè)隨機(jī)變量,記為X1,X2,…,Xp,主成分分析就是要把這p個(gè)指標(biāo)的問題,轉(zhuǎn)變?yōu)橛懻損個(gè)指標(biāo)的線性組合的問題,而這些新的指標(biāo)F1,F(xiàn)2,…,F(xiàn)k(k≤p),按照保留主要信息量的原則充分反映原
5、指標(biāo)的信息,并且相互獨(dú)立。10這種由討論多個(gè)指標(biāo)降為少數(shù)幾個(gè)綜合指標(biāo)的過程在數(shù)學(xué)上就叫做降維。主成分分析通常的做法是,尋求原指標(biāo)的線性組合Fi。11滿足如下的條件:主成分之間相互獨(dú)立,即無重疊的信息。即主成分的方差依次遞減,重要性依次遞減,即每個(gè)主成分的系數(shù)平方和為1。即12?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸13?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸?14???????
6、?????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸?15?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸???????????????????????????????????????????????????????????????16為了方便,我們在二維空間中討論主成分的幾何意義。設(shè)有n個(gè)樣品,每個(gè)樣品有兩個(gè)觀測變量xl和x2,在由變量xl和x2所確定的二維平面中,n個(gè)樣本點(diǎn)所散布的情況如橢圓狀。由圖可以看出這
7、n個(gè)樣本點(diǎn)無論是沿著xl軸方向或x2軸方向都具有較大的離散性,其離散的程度可以分別用觀測變量xl的方差和x2的方差定量地表示。顯然,如果只考慮xl和x2中的任何一個(gè),那么包含在原始數(shù)據(jù)中的經(jīng)濟(jì)信息將會有較大的損失。17如果我們將xl軸和x2軸先平移,再同時(shí)按逆時(shí)針方向旋轉(zhuǎn)?角度,得到新坐標(biāo)軸Fl和F2。Fl和F2是兩個(gè)新變量。18根據(jù)旋轉(zhuǎn)變換的公式:19旋轉(zhuǎn)變換的目的是為了使得n個(gè)樣品點(diǎn)在Fl軸方向上的離散程度最大,即Fl的方差最大。變量Fl代表了原始數(shù)據(jù)的絕大部分信息,在研究某經(jīng)濟(jì)問題時(shí),即使不考慮變量F2也無損
8、大局。經(jīng)過上述旋轉(zhuǎn)變換原始數(shù)據(jù)的大部分信息集中到Fl軸上,對數(shù)據(jù)中包含的信息起到了濃縮作用。20Fl,F(xiàn)2除了可以對包含在Xl,X2中的信息起著濃縮作用之外,還具有不相關(guān)的性質(zhì),這就使得在研究復(fù)雜的問題時(shí)避免了信息重疊所帶來的虛假性。二維平面上的個(gè)點(diǎn)的方差大部分都?xì)w結(jié)在Fl軸上,而F2軸上的方差很小。Fl和F2稱為原始變量x1和x2的綜合變量。F簡化了系統(tǒng)結(jié)