資源描述:
《《主成分分析》PPT課件.ppt》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、主成分分析PrincipalComponents本章主要內(nèi)容前言主成分的幾何解釋主成分的數(shù)學(xué)模型樣本主成分的求解及其性質(zhì)主成分分析的進一步應(yīng)用例子(1)一個人的身材需要用多項指標(biāo)完整描述:身高、體重、臂長、腿長、肩寬、胸圍、腰圍、臀圍等,但人們購買衣服時一般只用身高和肥瘦兩個綜合指標(biāo)就夠了例子(2)一項十分著名的工作是美國的統(tǒng)計學(xué)家斯通(stone)在1947年關(guān)于國民經(jīng)濟的研究。他曾利用美國1929一1938年各年的數(shù)據(jù),得到了17個反映國民收入與支出的變量要素,例如雇主補貼、消費資料和生產(chǎn)資料、
2、純公共支出、凈增庫存、股息、利息、外貿(mào)平衡等等。在進行主成分分析后,竟以97.4%的精度,用三新變量就取代了原17個變量。根據(jù)經(jīng)濟學(xué)知識,斯通給這三個新變量分別命名為總收入F1、總收入變化率F2和經(jīng)濟發(fā)展或衰退的趨勢F3。更有意思的是,這三個變量其實都是可以直接測量的。斯通將他得到的主成分與實際測量的總收入I、總收入變化率ΔI以及時間t因素做相關(guān)分析,得到下表:前言在社會經(jīng)濟的研究中,為了全面系統(tǒng)的分析和研究問題,必須考慮許多經(jīng)濟指標(biāo),這些指標(biāo)能從不同的側(cè)面反映我們所研究的對象的特征,但指標(biāo)太多,不
3、但會增加計算的復(fù)雜性,而且也會給合理分析問題和分析解釋問題帶來困難。在很多情況下,在某種程度上這些指標(biāo)存在信息的重疊,具有一定的相關(guān)性在回歸分析、聚類分析、判別分析等方法中,經(jīng)常會有過多指標(biāo)問題。處理不當(dāng)?shù)脑?,會影響最終統(tǒng)計分析的結(jié)果。因而,人們希望對這些變量加以“改造”,用少數(shù)的互不相關(guān)的新變量反映原始變量所提供的絕大部分信息,通過對新變量的分析解決問題。前言主成分分析是把各變量之間互相關(guān)聯(lián)的復(fù)雜關(guān)系進行簡化分析的方法。在多指標(biāo)的數(shù)據(jù)分析中,壓縮指標(biāo)個數(shù)的討論成為實際工作者關(guān)心的問題之一。主成分分
4、析就是將多個指標(biāo)轉(zhuǎn)化為少數(shù)幾個綜合指標(biāo)的一種常用的統(tǒng)計方法主成分分析的涵義主成分分析試圖在力保數(shù)據(jù)信息丟失最少的原則下,對這種多變量的數(shù)據(jù)進行最佳綜合簡化,也就是說,對高維變量空間進行降維處理。很顯然,識辨系統(tǒng)在一個低維空間要比在一個高維空間容易得多。主成分分析的目的就是通過線性變換,將原來的多個指標(biāo)組合成相互獨立的少數(shù)幾個能充分反映總體信息的指標(biāo)(主成分),從而在不丟掉主要信息的前提下避開了變量間共線性的問題,便于進一步分析。主成分分析能起到既減少指標(biāo)個數(shù),又不影響所要達到的統(tǒng)計分析的目的。要注意
5、的是,主成分分析方法往往是一種手段,它要與其它方法結(jié)合起來使用。常與回歸分析、因子分析、聚類分析結(jié)合在一起使用問題的提出?設(shè)在一個問題中,有n個個體,對每一個個體測定了p個指標(biāo),其觀察值組成了一個矩陣這p個指標(biāo)反映了n個個體之間的差異,能否從這p個指標(biāo)中提取m個綜合指標(biāo)(m<p),使這m個綜合指標(biāo)仍然能基本保持原有的p個指標(biāo)所提供的個體間的差異?壓縮指標(biāo)的可能性1、p個指標(biāo)之間相互獨立壓縮不可能2、兩個指標(biāo)之間完全相關(guān)保留一個指標(biāo)3、一般情況指標(biāo)之間既不完全獨立也不完全相關(guān)即0<r<1指標(biāo)壓縮才可能
6、主成分分析的幾何解釋-以兩個變量為例y2y1設(shè)有n個樣品,每個樣品有兩個觀測變量xl和x2,在由變量xl和x2所確定的二維平面中,n個樣本點所散布的情況如橢圓狀。由圖可以看出這n個樣本點無論是沿著xl軸方向或x2軸方向都具有較大的離散性,其離散的程度可以分別用觀測變量xl的方差和x2的方差定量地表示。顯然,如果只考慮xl和x2中的任何一個,那么包含在原始數(shù)據(jù)中的經(jīng)濟信息將會有較大的損失。y2y1y2y1如果我們將xl軸和x2軸先平移,再同時按逆時針方向旋轉(zhuǎn)θ角度,得到新坐標(biāo)軸yl和y2。yl和y2是
7、兩個新變量。根據(jù)旋轉(zhuǎn)變換的公式:L2旋轉(zhuǎn)變換的目的是為了使得n個樣品點在yl軸方向上的離散程度最大,即yl的方差最大。變量yl代表了原始數(shù)據(jù)的絕大部分信息,在研究某些問題時,即使不考慮變量y2也無損大局。經(jīng)過上述旋轉(zhuǎn)變換原始數(shù)據(jù)的大部分信息集中到y(tǒng)1軸上,對數(shù)據(jù)中包含的信息起到了濃縮作用。yl,y2除了可以對包含在xl,x2中的信息起著濃縮作用之外,還具有不相關(guān)(圖形中表現(xiàn)為正交)的性質(zhì),這就使得在研究復(fù)雜的問題時避免了信息重疊所帶來的虛假性。二維平面上的個點的方差大部分都?xì)w結(jié)在yl軸上,而y2軸上
8、的方差很小。yl和y2稱為原始變量xl和x2的綜合變量。y簡化了系統(tǒng)結(jié)構(gòu),抓住了主要矛盾。5維空間在平面上的投影y2y1x1x2x3x4x5y1=l11x1+l21x2+…+l51x5y2=l21x1+l22x2+…+l52x5x1x3x5x4x2y1y2標(biāo)準(zhǔn)化變換記原始變量為Z,標(biāo)準(zhǔn)化后的變量記為X。作標(biāo)準(zhǔn)化變換:原指標(biāo)的相關(guān)系數(shù)矩陣Rj=1,2,…,p;k=1,2,…,n主成分分析的數(shù)學(xué)模型最簡單的綜合指標(biāo)是原指標(biāo)的線性組合,即將原始的p個變量進行線性組合,作為新