資源描述:
《《主成分分析 》ppt課件》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、CH.10主成分分析主成分分析主成分回歸立體數(shù)據(jù)表的主成分分析一項十分著名的工作是美國的統(tǒng)計學(xué)家斯通(stone)在1947年關(guān)于國民經(jīng)濟的研究。他曾利用美國1929一1938年各年的數(shù)據(jù),得到了17個反映國民收入與支出的變量要素,例如雇主補貼、消費資料和生產(chǎn)資料、純公共支出、凈增庫存、股息、利息外貿(mào)平衡等等?!?基本思想在進行主成分分析后,竟以97.4%的精度,用三新變量就取代了原17個變量。根據(jù)經(jīng)濟學(xué)知識,斯通給這三個新變量分別命名為總收入F1、總收入變化率F2和經(jīng)濟發(fā)展或衰退的趨勢F3。更有意思的是,這三個變量其實都是可以直接測量的。斯通將他得到的主成分
2、與實際測量的總收入I、總收入變化率?I以及時間t因素做相關(guān)分析,得到下表:F1F2F3iitF11F201F3001i0.995-0.0410.057li-0.0560.948-0.124-0.102lt-0.369-0.282-0.836-0.414-0.1121主成分分析是把各變量之間互相關(guān)聯(lián)的復(fù)雜關(guān)系進行簡化分析的方法。在社會經(jīng)濟的研究中,為了全面系統(tǒng)的分析和研究問題,必須考慮許多經(jīng)濟指標(biāo),這些指標(biāo)能從不同的側(cè)面反映我們所研究的對象的特征,但在某種程度上存在信息的重疊,具有一定的相關(guān)性。主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原則下,對這種多變量的截面數(shù)據(jù)
3、表進行最佳綜合簡化,也就是說,對高維變量空間進行降維處理。很顯然,識辨系統(tǒng)在一個低維空間要比在一個高維空間容易得多。(1)基于相關(guān)系數(shù)矩陣還是基于協(xié)方差矩陣做主成分分析。當(dāng)分析中所選擇的經(jīng)濟變量具有不同的量綱,變量水平差異很大,應(yīng)該選擇基于相關(guān)系數(shù)矩陣的主成分分析。在力求數(shù)據(jù)信息丟失最少的原則下,對高維的變量空間降維,即研究指標(biāo)體系的少數(shù)幾個線性組合,并且這幾個線性組合所構(gòu)成的綜合指標(biāo)將盡可能多地保留原來指標(biāo)變異方面的信息。這些綜合指標(biāo)就稱為主成分。要討論的問題是:(2)選擇幾個主成分。主成分分析的目的是簡化變量,一般情況下主成分的個數(shù)應(yīng)該小于原始變量的個數(shù)。
4、關(guān)于保留幾個主成分,應(yīng)該權(quán)衡主成分個數(shù)和保留的信息。(3)如何解釋主成分所包含的經(jīng)濟意義。§2數(shù)學(xué)模型與幾何解釋假設(shè)我們所討論的實際問題中,有p個指標(biāo),我們把這p個指標(biāo)看作p個隨機變量,記為X1,X2,…,Xp,主成分分析就是要把這p個指標(biāo)的問題,轉(zhuǎn)變?yōu)橛懻損個指標(biāo)的線性組合的問題,而這些新的指標(biāo)F1,F(xiàn)2,…,F(xiàn)k(k≤p),按照保留主要信息量的原則充分反映原指標(biāo)的信息,并且相互獨立。這種由討論多個指標(biāo)降為少數(shù)幾個綜合指標(biāo)的過程在數(shù)學(xué)上就叫做降維。主成分分析通常的做法是,尋求原指標(biāo)的線性組合Fi。滿足如下的條件:主成分之間相互獨立,即無重疊的信息。即主成分的
5、方差依次遞減,重要性依次遞減,即每個主成分的系數(shù)平方和為1。即?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸?????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸??????????????????????????????????????主成分分析的幾何解釋平移、旋轉(zhuǎn)坐標(biāo)軸???????????????????????????????
6、????????????????????????????????為了方便,我們在二維空間中討論主成分的幾何意義。設(shè)有n個樣品,每個樣品有兩個觀測變量xl和x2,在由變量xl和x2所確定的二維平面中,n個樣本點所散布的情況如橢圓狀。由圖可以看出這n個樣本點無論是沿著xl軸方向或x2軸方向都具有較大的離散性,其離散的程度可以分別用觀測變量xl的方差和x2的方差定量地表示。顯然,如果只考慮xl和x2中的任何一個,那么包含在原始數(shù)據(jù)中的經(jīng)濟信息將會有較大的損失。如果我們將xl軸和x2軸先平移,再同時按逆時針方向旋轉(zhuǎn)?角度,得到新坐標(biāo)軸Fl和F2。Fl和F2是兩個新變量
7、。根據(jù)旋轉(zhuǎn)變換的公式:旋轉(zhuǎn)變換的目的是為了使得n個樣品點在Fl軸方向上的離散程度最大,即Fl的方差最大。變量Fl代表了原始數(shù)據(jù)的絕大部分信息,在研究某經(jīng)濟問題時,即使不考慮變量F2也無損大局。經(jīng)過上述旋轉(zhuǎn)變換原始數(shù)據(jù)的大部分信息集中到Fl軸上,對數(shù)據(jù)中包含的信息起到了濃縮作用。Fl,F(xiàn)2除了可以對包含在Xl,X2中的信息起著濃縮作用之外,還具有不相關(guān)的性質(zhì),這就使得在研究復(fù)雜的問題時避免了信息重疊所帶來的虛假性。二維平面上的個點的方差大部分都歸結(jié)在Fl軸上,而F2軸上的方差很小。Fl和F2稱為原始變量x1和x2的綜合變量。F簡化了系統(tǒng)結(jié)構(gòu),抓住了主要矛盾。§3
8、主成分的推導(dǎo)及性質(zhì)一、兩個線性代數(shù)的結(jié)