主元分析(pca)理論分析及應(yīng)用

主元分析(pca)理論分析及應(yīng)用

ID:20371149

大?。?00.50 KB

頁數(shù):12頁

時(shí)間:2018-10-12

主元分析(pca)理論分析及應(yīng)用_第1頁
主元分析(pca)理論分析及應(yīng)用_第2頁
主元分析(pca)理論分析及應(yīng)用_第3頁
主元分析(pca)理論分析及應(yīng)用_第4頁
主元分析(pca)理論分析及應(yīng)用_第5頁
資源描述:

《主元分析(pca)理論分析及應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、http://www.cad.zju.edu.cn/home/chenlu/pca.htm主元分析(PCA)理論分析及應(yīng)用(主要基于外文教程翻譯)什么是PCA?PCA是Principalcomponentanalysis的縮寫,中文翻譯為主元分析。它是一種對數(shù)據(jù)進(jìn)行分析的技術(shù),最重要的應(yīng)用是對原有數(shù)據(jù)進(jìn)行簡化。正如它的名字:主元分析,這種方法可以有效的找出數(shù)據(jù)中最“主要”的元素和結(jié)構(gòu),去除噪音和冗余,將原有的復(fù)雜數(shù)據(jù)降維,揭示隱藏在復(fù)雜數(shù)據(jù)背后的簡單結(jié)構(gòu)。它的優(yōu)點(diǎn)是簡單,而且無參數(shù)限制,可以方便的應(yīng)用與

2、各個(gè)場合。因此應(yīng)用極其廣泛,從神經(jīng)科學(xué)到計(jì)算機(jī)圖形學(xué)都有它的用武之地。被譽(yù)為應(yīng)用線形代數(shù)最價(jià)值的結(jié)果之一。在以下的章節(jié)中,不僅有對PCA的比較直觀的解釋,同時(shí)也配有較為深入的分析。首先將從一個(gè)簡單的例子開始說明PCA應(yīng)用的場合以及想法的由來,進(jìn)行一個(gè)比較直觀的解釋;然后加入數(shù)學(xué)的嚴(yán)格推導(dǎo),引入線形代數(shù),進(jìn)行問題的求解。隨后將揭示PCA與SVD(SingularValueDecomposition)之間的聯(lián)系以及如何將之應(yīng)用于真實(shí)世界。最后將分析PCA理論模型的假設(shè)條件以及針對這些條件可能進(jìn)行的改進(jìn)。一個(gè)

3、簡單的模型在實(shí)驗(yàn)科學(xué)中我常遇到的情況是,使用大量的變量代表可能變化的因素,例如光譜、電壓、速度等等。但是由于實(shí)驗(yàn)環(huán)境和觀測手段的限制,實(shí)驗(yàn)數(shù)據(jù)往往變得極其的復(fù)雜、混亂和冗余的。如何對數(shù)據(jù)進(jìn)行分析,取得隱藏在數(shù)據(jù)背后的變量關(guān)系,是一個(gè)很困難的問題。在神經(jīng)科學(xué)、氣象學(xué)、海洋學(xué)等等學(xué)科實(shí)驗(yàn)中,假設(shè)的變量個(gè)數(shù)可能非常之多,但是真正的影響因素以及它們之間的關(guān)系可能又是非常之簡單的。下面的模型取自一個(gè)物理學(xué)中的實(shí)驗(yàn)。它看上去比較簡單,但足以說明問題。如圖表Error!Bookmarknotdefined.所示。這是

4、一個(gè)理想彈簧運(yùn)動(dòng)規(guī)律的測定實(shí)驗(yàn)。假設(shè)球是連接在一個(gè)無質(zhì)量無摩擦的彈簧之上,從平衡位置沿軸拉開一定的距離然后釋放。圖表Error!Bookmarknotdefined.對于一個(gè)具有先驗(yàn)知識的實(shí)驗(yàn)者來說,這個(gè)實(shí)驗(yàn)是非常容易的。球的運(yùn)動(dòng)只是在x軸向上發(fā)生,只需要記錄下軸向上的運(yùn)動(dòng)序列并加以分析即可。但是,在真實(shí)世界中,對于第一次實(shí)驗(yàn)的探索者來說(這也是實(shí)驗(yàn)科學(xué)中最常遇到的一種情況),是不可能進(jìn)行這樣的假設(shè)的。那么,一般來說,必須記錄下球的三維位置。這一點(diǎn)可以通過在不同角度放置三個(gè)攝像機(jī)實(shí)現(xiàn)(如圖所示),假設(shè)以

5、的頻率拍攝畫面,就可以得到球在空間中的運(yùn)動(dòng)序列。但是,由于實(shí)驗(yàn)的限制,這三臺攝像機(jī)的角度可能比較任意,并不是正交的。事實(shí)上,在真實(shí)世界中也并沒有所謂的軸,每個(gè)攝像機(jī)記錄下的都是一幅二維的圖像,有其自己的空間坐標(biāo)系,球的空間位置是由一組二維坐標(biāo)記錄的:。經(jīng)過實(shí)驗(yàn),系統(tǒng)產(chǎn)生了幾分鐘內(nèi)球的位置序列。怎樣從這些數(shù)據(jù)中得到球是沿著某個(gè)軸運(yùn)動(dòng)的規(guī)律呢?怎樣將實(shí)驗(yàn)數(shù)據(jù)中的冗余變量剔除,化歸到這個(gè)潛在的軸上呢?這是一個(gè)真實(shí)的實(shí)驗(yàn)場景,數(shù)據(jù)的噪音是必須面對的因素。在這個(gè)實(shí)驗(yàn)中噪音可能來自空氣、摩擦、攝像機(jī)的誤差以及非理想

6、化的彈簧等等。噪音使數(shù)據(jù)變得混亂,掩蓋了變量間的真實(shí)關(guān)系。如何去除噪音是實(shí)驗(yàn)者每天所要面對的巨大考驗(yàn)。上面提出的兩個(gè)問題就是PCA方法的目標(biāo)。PCA主元分析方法是解決此類問題的一個(gè)有力的武器。下文將結(jié)合以上的例子提出解決方案,逐步敘述PCA方法的思想和求解過程。線形代數(shù):基變換從線形代數(shù)的角度來看,PCA的目標(biāo)就是使用另一組基去重新描述得到的數(shù)據(jù)空間。而新的基要能盡量揭示原有的數(shù)據(jù)間的關(guān)系。在這個(gè)例子中,沿著某軸上的運(yùn)動(dòng)是最重要的。這個(gè)維度即最重要的“主元”。PCA的目標(biāo)就是找到這樣的“主元”,最大程度

7、的去除冗余和噪音的干擾。A.標(biāo)準(zhǔn)正交基為了引入推導(dǎo),需要將上文的數(shù)據(jù)進(jìn)行明確的定義。在上面描述的實(shí)驗(yàn)過程中,在每一個(gè)采樣時(shí)間點(diǎn)上,每個(gè)攝像機(jī)記錄了一組二維坐標(biāo),綜合三臺攝像機(jī)數(shù)據(jù),在每一個(gè)時(shí)間點(diǎn)上得到的位置數(shù)據(jù)對應(yīng)于一個(gè)六維列向量。如果以的頻率拍攝10分鐘,將得到個(gè)這樣的向量數(shù)據(jù)。抽象一點(diǎn)來說,每一個(gè)采樣點(diǎn)數(shù)據(jù)都是在維向量空間(此例中)內(nèi)的一個(gè)向量,這里的是牽涉的變量個(gè)數(shù)。由線形代數(shù)我們知道,在維向量空間中的每一個(gè)向量都是一組正交基的線形組合。最普通的一組正交基是標(biāo)準(zhǔn)正交基,實(shí)驗(yàn)采樣的結(jié)果通??梢钥醋魇?/p>

8、在標(biāo)準(zhǔn)正交基下表示的。舉例來說,上例中每個(gè)攝像機(jī)記錄的數(shù)據(jù)坐標(biāo)為,這樣的基便是。那為什么不取或是其他任意的基呢?原因是,這樣的標(biāo)準(zhǔn)正交基反映了數(shù)據(jù)的采集方式。假設(shè)采集數(shù)據(jù)點(diǎn)是,一般并不會(huì)記錄(在基下),因?yàn)橐话愕挠^測者都是習(xí)慣于取攝像機(jī)的屏幕坐標(biāo),即向上和向右的方向作為觀測的基準(zhǔn)。也就是說,標(biāo)準(zhǔn)正交基表現(xiàn)了數(shù)據(jù)觀測的一般方式。在線形代數(shù)中,這組基表示為行列向量線形無關(guān)的單位矩陣。A.基變換從更嚴(yán)格的數(shù)學(xué)定義上來說,PCA回答的問題是:如何尋

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。