資源描述:
《主成分分析方法》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。
1、主成分分析方法在經(jīng)濟(jì)問(wèn)題的研究屮,我們常常會(huì)遇到影響此問(wèn)題的很多變量,這些變量多且又有一定的相關(guān)性,因此我們希望從中綜合出一些主要的指標(biāo),這些指標(biāo)所包含的信息量乂很多。這些特點(diǎn),使我們?cè)谘芯繌?fù)雜的問(wèn)題時(shí),容易抓住主要孑盾。那么怎樣找綜合指標(biāo)?主成分分析是將原來(lái)眾多具有一定相關(guān)性的指標(biāo)重新組合成一組新的相互無(wú)關(guān)的綜合指標(biāo)來(lái)代替原來(lái)指標(biāo)的統(tǒng)計(jì)方法,也是數(shù)學(xué)上處理降維的一種方法.一.主成分分析法簡(jiǎn)介主成分分析是將多個(gè)變量通過(guò)線性變換以選出較少個(gè)數(shù)重要變量的一種多元統(tǒng)計(jì)分析方法,又稱主分量分析。在實(shí)際問(wèn)題中,為了全面分析問(wèn)題,
2、往往提出很多與此有關(guān)的變量(或因索),因?yàn)槊總€(gè)變量都在不同程度上反映這個(gè)課題的某些信息。但是,在用統(tǒng)計(jì)分析方法研究這個(gè)多變量的課題時(shí),變量個(gè)數(shù)太多就會(huì)增加課題的復(fù)雜性。人們自然希望變量個(gè)數(shù)較少而得到的信息較多。在很多情形,變量Z間是有一定的相關(guān)關(guān)系的,當(dāng)兩個(gè)變量Z間冇一定相關(guān)關(guān)系時(shí),可以解釋為這兩個(gè)變量反映此課題的信息有一定的重疊。主成分分析是對(duì)于原先提出的所冇變量,建立盡可能少的新變量,使得這些新變量是兩兩不相關(guān)的,而且這些新變量在反映問(wèn)題的信息方面盡可能保持原有的信息。信息的大小通常用離差平方和或方差來(lái)衡量。主成分
3、分析的基礎(chǔ)思想是將數(shù)據(jù)原來(lái)的P個(gè)指標(biāo)作線性組合,作為新的綜合指椒耳,尸2,…,F(xiàn)p)。其屮丘是“信息最多”的指標(biāo),即原指標(biāo)所冇線性組合屮使vaiW)最大的組合對(duì)應(yīng)的指標(biāo),稱為第一主成分;耳為除林外信息最多的指標(biāo),即cov(Fl9F2)=()Rvar(F2)最大,稱為第二主成分;依次類推。易知許迅,…,巧互不相關(guān)且方弟遞減。實(shí)際處理中一般只選取前幾個(gè)最大的主成分(總貢獻(xiàn)率達(dá)到85%),達(dá)到了降維的目的。主成分的幾何意義:設(shè)冇n個(gè)樣品,每個(gè)樣品冇兩個(gè)觀測(cè)變量X,-維平面的散點(diǎn)圖。n個(gè)樣本點(diǎn),無(wú)論沿著X】軸方向還是X?軸方向
4、,都有較大的離散性,其離散程度可以用X
5、或X2的方差表示。當(dāng)只考慮一個(gè)時(shí),原始數(shù)據(jù)中的信息將會(huì)有較大的損失。若將坐標(biāo)軸旋轉(zhuǎn)一下:Fi=X
6、cos&+X?sin0F{=X〕sin&+X?cos&‘COS&、一sin&cos&人X2丿=ux且有UfU=I,即t/是正交距陣,則n個(gè)樣品在好軸的離散程度最大(方差最大),變量許代表了原始數(shù)據(jù)的絕大部分信息,即使不考慮厲,信息損失也不多。而且許,耳不相關(guān)。只考慮仟時(shí),二維降為一維。主成分分析是一種進(jìn)行信息壓縮的方法。通過(guò)這種方法,可以將原來(lái)相關(guān)的若干變量,變換成不相關(guān)的變量。二?
7、求主成分方法步驟:(1)對(duì)樣本數(shù)據(jù)的標(biāo)準(zhǔn)化設(shè)有n個(gè)樣甜,P個(gè)指標(biāo),得到的原始資料矩陣%y2i712尹22…兒?…y2py=????????????宀1兒2?…V為了實(shí)現(xiàn)樣木數(shù)據(jù)的標(biāo)準(zhǔn)化,應(yīng)求樣木數(shù)據(jù)的平均和方差。樣木數(shù)據(jù)的標(biāo)準(zhǔn)化是基于數(shù)據(jù)的平均和方差進(jìn)行的。因?yàn)樵趯?shí)際應(yīng)用中,往往存在指標(biāo)的量綱不同,所以在計(jì)算Z前須先消除量綱的彩響,而將原始數(shù)據(jù)標(biāo)準(zhǔn)化。對(duì)數(shù)據(jù)矩陣Y作標(biāo)準(zhǔn)化處理,即對(duì)每一個(gè)指標(biāo)分量作標(biāo)準(zhǔn)化變換,變換公式為:(iX.=J6=12…小其中:樣本均值樣本標(biāo)準(zhǔn)差2X)得標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣了兀11X12X22X2p
8、(2)計(jì)算相關(guān)矩陣對(duì)于給定的n個(gè)樣本,求樣本間的相關(guān)系數(shù)。相關(guān)矩陣中的每一個(gè)元索由相應(yīng)的相關(guān)系數(shù)所表示。(R=XXf=^21其屮1IX兀刃_1k=l(3)求特征值和特征向量設(shè)求得的相關(guān)矩陣為R,求解特征方程:R-Xi=0通過(guò)求解特征方程,可得到m個(gè)特征值(i二1?ni),和對(duì)應(yīng)于每-?個(gè)特征值的ip;i二1?m特征向量:ai=(an,ai2,...,Hi且有入1三入2上入3三入m三0li.設(shè)相應(yīng)X1的特征向量Ai=(ali,a2i,???,Qpi)i二1?m(4)求主成分(取線性組合)根據(jù)求得的ni個(gè)特征向量,ni個(gè)
9、主要成分分別為:Fi=a11X1+a12X2+???+aipXpF2二a21X1+a22X2+???+a2PxpFm=amJXi+am2x2+???+amPxp上式就是主成分分析的模型,其通式為:Fi二Q11X1+CL12X2+???+QipXpi二1,2,...in稱為主成份,稱Fl是第一主成份,F(xiàn)2是第二主成份,F(xiàn)i是第i主成份。求各主成份的關(guān)鍵是求特征根(X)及其相應(yīng)的特征向量(0)。主成分分析以較少的H1個(gè)指標(biāo)代替了原來(lái)的p個(gè)指標(biāo)對(duì)系統(tǒng)進(jìn)行分析,這給我們對(duì)系統(tǒng)的綜合評(píng)價(jià)帶來(lái)了很大的方便。(5)定義:稱丄為第一主
10、成分的貢獻(xiàn)率。這個(gè)值越大,表明第i主成分綜合P/=1信息的能力越強(qiáng)。稱上」為前m個(gè)主成分的累計(jì)貢獻(xiàn)率。表明取前幾個(gè)主成分基本包含了全部測(cè)Pf=l量指標(biāo)所具冇信息的百分率。保留多少個(gè)主成分取決于保留部分的累積方差在方差總和屮所占百分比(即累計(jì)貢獻(xiàn)率),它標(biāo)志著前兒個(gè)主成分概描信息之多寡。實(shí)踐中,粗略規(guī)定一個(gè)百分比便可決定保留幾個(gè)主成