主成分分析方法

主成分分析方法

ID:43791122

大小:203.72 KB

頁(yè)數(shù):6頁(yè)

時(shí)間:2019-10-14

主成分分析方法_第1頁(yè)
主成分分析方法_第2頁(yè)
主成分分析方法_第3頁(yè)
主成分分析方法_第4頁(yè)
主成分分析方法_第5頁(yè)
資源描述:

《主成分分析方法》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)

1、主成分分析方法在經(jīng)濟(jì)問(wèn)題的研究屮,我們常常會(huì)遇到影響此問(wèn)題的很多變量,這些變量多且又有一定的相關(guān)性,因此我們希望從中綜合出一些主要的指標(biāo),這些指標(biāo)所包含的信息量乂很多。這些特點(diǎn),使我們?cè)谘芯繌?fù)雜的問(wèn)題時(shí),容易抓住主要孑盾。那么怎樣找綜合指標(biāo)?主成分分析是將原來(lái)眾多具有一定相關(guān)性的指標(biāo)重新組合成一組新的相互無(wú)關(guān)的綜合指標(biāo)來(lái)代替原來(lái)指標(biāo)的統(tǒng)計(jì)方法,也是數(shù)學(xué)上處理降維的一種方法.一.主成分分析法簡(jiǎn)介主成分分析是將多個(gè)變量通過(guò)線性變換以選出較少個(gè)數(shù)重要變量的一種多元統(tǒng)計(jì)分析方法,又稱主分量分析。在實(shí)際問(wèn)題中,為了全面分析問(wèn)題,

2、往往提出很多與此有關(guān)的變量(或因索),因?yàn)槊總€(gè)變量都在不同程度上反映這個(gè)課題的某些信息。但是,在用統(tǒng)計(jì)分析方法研究這個(gè)多變量的課題時(shí),變量個(gè)數(shù)太多就會(huì)增加課題的復(fù)雜性。人們自然希望變量個(gè)數(shù)較少而得到的信息較多。在很多情形,變量Z間是有一定的相關(guān)關(guān)系的,當(dāng)兩個(gè)變量Z間冇一定相關(guān)關(guān)系時(shí),可以解釋為這兩個(gè)變量反映此課題的信息有一定的重疊。主成分分析是對(duì)于原先提出的所冇變量,建立盡可能少的新變量,使得這些新變量是兩兩不相關(guān)的,而且這些新變量在反映問(wèn)題的信息方面盡可能保持原有的信息。信息的大小通常用離差平方和或方差來(lái)衡量。主成分

3、分析的基礎(chǔ)思想是將數(shù)據(jù)原來(lái)的P個(gè)指標(biāo)作線性組合,作為新的綜合指椒耳,尸2,…,F(xiàn)p)。其屮丘是“信息最多”的指標(biāo),即原指標(biāo)所冇線性組合屮使vaiW)最大的組合對(duì)應(yīng)的指標(biāo),稱為第一主成分;耳為除林外信息最多的指標(biāo),即cov(Fl9F2)=()Rvar(F2)最大,稱為第二主成分;依次類推。易知許迅,…,巧互不相關(guān)且方弟遞減。實(shí)際處理中一般只選取前幾個(gè)最大的主成分(總貢獻(xiàn)率達(dá)到85%),達(dá)到了降維的目的。主成分的幾何意義:設(shè)冇n個(gè)樣品,每個(gè)樣品冇兩個(gè)觀測(cè)變量X,-維平面的散點(diǎn)圖。n個(gè)樣本點(diǎn),無(wú)論沿著X】軸方向還是X?軸方向

4、,都有較大的離散性,其離散程度可以用X

5、或X2的方差表示。當(dāng)只考慮一個(gè)時(shí),原始數(shù)據(jù)中的信息將會(huì)有較大的損失。若將坐標(biāo)軸旋轉(zhuǎn)一下:Fi=X

6、cos&+X?sin0F{=X〕sin&+X?cos&‘COS&、一sin&cos&人X2丿=ux且有UfU=I,即t/是正交距陣,則n個(gè)樣品在好軸的離散程度最大(方差最大),變量許代表了原始數(shù)據(jù)的絕大部分信息,即使不考慮厲,信息損失也不多。而且許,耳不相關(guān)。只考慮仟時(shí),二維降為一維。主成分分析是一種進(jìn)行信息壓縮的方法。通過(guò)這種方法,可以將原來(lái)相關(guān)的若干變量,變換成不相關(guān)的變量。二?

7、求主成分方法步驟:(1)對(duì)樣本數(shù)據(jù)的標(biāo)準(zhǔn)化設(shè)有n個(gè)樣甜,P個(gè)指標(biāo),得到的原始資料矩陣%y2i712尹22…兒?…y2py=????????????宀1兒2?…V為了實(shí)現(xiàn)樣木數(shù)據(jù)的標(biāo)準(zhǔn)化,應(yīng)求樣木數(shù)據(jù)的平均和方差。樣木數(shù)據(jù)的標(biāo)準(zhǔn)化是基于數(shù)據(jù)的平均和方差進(jìn)行的。因?yàn)樵趯?shí)際應(yīng)用中,往往存在指標(biāo)的量綱不同,所以在計(jì)算Z前須先消除量綱的彩響,而將原始數(shù)據(jù)標(biāo)準(zhǔn)化。對(duì)數(shù)據(jù)矩陣Y作標(biāo)準(zhǔn)化處理,即對(duì)每一個(gè)指標(biāo)分量作標(biāo)準(zhǔn)化變換,變換公式為:(iX.=J6=12…小其中:樣本均值樣本標(biāo)準(zhǔn)差2X)得標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣了兀11X12X22X2p

8、(2)計(jì)算相關(guān)矩陣對(duì)于給定的n個(gè)樣本,求樣本間的相關(guān)系數(shù)。相關(guān)矩陣中的每一個(gè)元索由相應(yīng)的相關(guān)系數(shù)所表示。(R=XXf=^21其屮1IX兀刃_1k=l(3)求特征值和特征向量設(shè)求得的相關(guān)矩陣為R,求解特征方程:R-Xi=0通過(guò)求解特征方程,可得到m個(gè)特征值(i二1?ni),和對(duì)應(yīng)于每-?個(gè)特征值的ip;i二1?m特征向量:ai=(an,ai2,...,Hi且有入1三入2上入3三入m三0li.設(shè)相應(yīng)X1的特征向量Ai=(ali,a2i,???,Qpi)i二1?m(4)求主成分(取線性組合)根據(jù)求得的ni個(gè)特征向量,ni個(gè)

9、主要成分分別為:Fi=a11X1+a12X2+???+aipXpF2二a21X1+a22X2+???+a2PxpFm=amJXi+am2x2+???+amPxp上式就是主成分分析的模型,其通式為:Fi二Q11X1+CL12X2+???+QipXpi二1,2,...in稱為主成份,稱Fl是第一主成份,F(xiàn)2是第二主成份,F(xiàn)i是第i主成份。求各主成份的關(guān)鍵是求特征根(X)及其相應(yīng)的特征向量(0)。主成分分析以較少的H1個(gè)指標(biāo)代替了原來(lái)的p個(gè)指標(biāo)對(duì)系統(tǒng)進(jìn)行分析,這給我們對(duì)系統(tǒng)的綜合評(píng)價(jià)帶來(lái)了很大的方便。(5)定義:稱丄為第一主

10、成分的貢獻(xiàn)率。這個(gè)值越大,表明第i主成分綜合P/=1信息的能力越強(qiáng)。稱上」為前m個(gè)主成分的累計(jì)貢獻(xiàn)率。表明取前幾個(gè)主成分基本包含了全部測(cè)Pf=l量指標(biāo)所具冇信息的百分率。保留多少個(gè)主成分取決于保留部分的累積方差在方差總和屮所占百分比(即累計(jì)貢獻(xiàn)率),它標(biāo)志著前兒個(gè)主成分概描信息之多寡。實(shí)踐中,粗略規(guī)定一個(gè)百分比便可決定保留幾個(gè)主成

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。