主成分分析方法綜述

主成分分析方法綜述

ID:31226661

大?。?2.56 KB

頁數(shù):10頁

時(shí)間:2019-01-07

主成分分析方法綜述_第1頁
主成分分析方法綜述_第2頁
主成分分析方法綜述_第3頁
主成分分析方法綜述_第4頁
主成分分析方法綜述_第5頁
資源描述:

《主成分分析方法綜述》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、主成分分析方法綜述1弓I言(Introduction)PCA(PrincipalComponentAnalysis),主成分分析,是一種數(shù)據(jù)分析的技術(shù),主要思想是將高維數(shù)據(jù)投影到較低維空間,提取多元事物的主要因素,揭示其本質(zhì)特征。主成分分析的應(yīng)用范圍非常廣泛,經(jīng)常和分類、聚類,以及與其他方法連用進(jìn)行數(shù)據(jù)處理。它可以高效地找出數(shù)據(jù)中的主要部分,將原有的復(fù)雜數(shù)據(jù)降維,去除整個(gè)數(shù)據(jù)中的噪音和冗余。PCA是一種統(tǒng)計(jì)分析方法,它將原來眾多具有一定相關(guān)性的多個(gè)指標(biāo),重新組合成…組新的互相無關(guān)的綜合指標(biāo)[1]。它是…種最小均方意義上的最優(yōu)變換,目的是去除輸入隨機(jī)向量之間的相關(guān)性,突出原始數(shù)據(jù)中的隱含特

2、性[2]。PCA方法的優(yōu)勢在于數(shù)據(jù)壓縮以及對多維數(shù)據(jù)進(jìn)行降維,它操作簡單,且沒有參數(shù)限制,可以方便的應(yīng)用于各個(gè)場合。它經(jīng)常被用于人臉識別和圖像壓縮、特征提取等領(lǐng)域,是在高維數(shù)據(jù)屮尋找模式的一種技術(shù)[3]。2主成分分析方法(Principalcomponentanalysis)2.1主成分分析方法的目標(biāo)由于原始數(shù)據(jù)的變量基數(shù)比較復(fù)雜,難以描述其特征,主成分分析提出了一種簡單解決問題的思想,從事物的主要方面進(jìn)行重點(diǎn)分析。該方法認(rèn)為某個(gè)事物的特征集屮在幾個(gè)主要變量上,只需要將這幾個(gè)變量分離出來,對這幾個(gè)變量進(jìn)行重點(diǎn)分析,用它們的線性組合表示事物的主要特征。因此,主成分分析方法的目標(biāo)就是尋找x(

3、x

4、隨機(jī)向量。假設(shè)均值為零,即:令表示為維單位向量,在其上投影c這個(gè)投影被定義為向量和的內(nèi)積,表示為:?疋=wr?只在上式中,需滿足以下約束條件:

5、

6、vv

7、

8、=(w,w”=1主成分分析方法就是尋找一個(gè)權(quán)值向量,它能夠使表達(dá)式取最大值⑷。2.3特征值求解PCA特征根求解的步驟如下:(1)將原始數(shù)據(jù)表示為mF的矩陣。n為原始數(shù)據(jù)的個(gè)數(shù),m為變量個(gè)數(shù)。(2)計(jì)算原始數(shù)據(jù)的均值。(3)用原始數(shù)據(jù)減去均值,得到矩陣X。(4)對XXT進(jìn)行特征根分解,求特征向量及其對應(yīng)的特征值。(5)選取最大的若干個(gè)特征值對應(yīng)的特征向量,即為求得的主成分。PCA方法用線形代數(shù)可以描述為:尋找一組正交基組成的矩陣P,定義Y

9、=PX,使得CY=MYYT是對角陣。P的行向量,就是數(shù)據(jù)X的主成分,也就是XXT的特征向量,矩陣CY對角線上第i個(gè)元素是數(shù)據(jù)X在方向Pi的方差[4]。2.4主成分?jǐn)?shù)量的選取主成分是n個(gè)原始變量的線性組合,各主成分Z間互不相關(guān)。每個(gè)主成分對應(yīng)一個(gè)方差,該方差為協(xié)方差陣對應(yīng)的特征值,各主成分特征值之和為1。將主成分按照其對應(yīng)的方差值從大到小依次排列,則最大的方差對應(yīng)第一主成分,以此類推。選擇主成分的數(shù)量取決于保留部分的累積方差在總方差中所占的百分比。由于所有主成分的總方差值是確定的,前面變量的方差較大,則后面的變量方差就較小。只有前幾個(gè)綜合變量才稱得上是主成分,后幾個(gè)綜合變量為次成分。一般情

10、況下,可根據(jù)問題的實(shí)際需要,主觀地確定一個(gè)百分比值,當(dāng)前X項(xiàng)的方差之和大于此百分比值時(shí),就可以決定保留前x個(gè)主成分,而忽略后面的次成分[5]。3主成分分析的特點(diǎn)(CharacteristicofPCA)綜上所述,主成分分析方法有很多優(yōu)點(diǎn),可將其歸納如下:(1)在數(shù)據(jù)處理時(shí),舍棄了一部分主成分,只取前幾個(gè)方差較大的幾個(gè)主成分來表示原始數(shù)據(jù),可減少計(jì)算量。(2)主成分之間是互不相關(guān)的,消除了原始數(shù)據(jù)之間的相關(guān)影響。在選取評價(jià)指標(biāo)時(shí),消除了指標(biāo)Z間的相關(guān)影響,因此更容易選擇指標(biāo)。而且實(shí)踐證明指標(biāo)之間相關(guān)程度越高,主成分分析效果越好。(3)在綜合評價(jià)函數(shù)中,主成分的權(quán)數(shù)為各個(gè)主成分的貢獻(xiàn)率,反映

11、了該主成分包含原始數(shù)據(jù)的信息量占全部信息量的比重,這樣確定地權(quán)數(shù)比較客觀、合理,克服了某些評價(jià)方法屮人為確定權(quán)數(shù)的缺陷。(4)主成分分析的計(jì)算方法比較規(guī)范,便于在計(jì)算機(jī)上實(shí)現(xiàn)。主成分分析方法的不足主要體現(xiàn)在兩個(gè)方面:(1)所得到的主成分實(shí)際含義模糊,沒有原始數(shù)據(jù)的含義確切、清楚。(2)主成分分析方法只考慮了數(shù)據(jù)的二階統(tǒng)計(jì)量(自相關(guān)),這對于高斯分布是足夠的,但對于非高斯分布,由于高級統(tǒng)計(jì)量中含有附加的信息,因此PCA對其表示不夠充分

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時(shí)可能會顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。