pca主成分分析原理及應用

pca主成分分析原理及應用

ID:5572977

大?。?14.50 KB

頁數(shù):19頁

時間:2017-12-19

pca主成分分析原理及應用_第1頁
pca主成分分析原理及應用_第2頁
pca主成分分析原理及應用_第3頁
pca主成分分析原理及應用_第4頁
pca主成分分析原理及應用_第5頁
資源描述:

《pca主成分分析原理及應用》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。

1、主元分析(PCA)理論分析及應用什么是PCA???????PCA是Principalcomponentanalysis的縮寫,中文翻譯為主元分析/主成分分析。它是一種對數(shù)據(jù)進行分析的技術,最重要的應用是對原有數(shù)據(jù)進行簡化。正如它的名字:主元分析,這種方法可以有效的找出數(shù)據(jù)中最“主要”的元素和結構,去除噪音和冗余,將原有的復雜數(shù)據(jù)降維,揭示隱藏在復雜數(shù)據(jù)背后的簡單結構。它的優(yōu)點是簡單,而且無參數(shù)限制,可以方便的應用與各個場合。因此應用極其廣泛,從神經(jīng)科學到計算機圖形學都有它的用武之地。被譽為應用線形代數(shù)最價值的結果之一。?????

2、?在以下的章節(jié)中,不僅有對PCA的比較直觀的解釋,同時也配有較為深入的分析。首先將從一個簡單的例子開始說明PCA應用的場合以及想法的由來,進行一個比較直觀的解釋;然后加入數(shù)學的嚴格推導,引入線形代數(shù),進行問題的求解。隨后將揭示PCA與SVD(SingularValueDecomposition)之間的聯(lián)系以及如何將之應用于真實世界。最后將分析PCA理論模型的假設條件以及針對這些條件可能進行的改進。一個簡單的模型??????在實驗科學中我常遇到的情況是,使用大量的變量代表可能變化的因素,例如光譜、電壓、速度等等。但是由于實驗環(huán)境和

3、觀測手段的限制,實驗數(shù)據(jù)往往變得極其的復雜、混亂和冗余的。如何對數(shù)據(jù)進行分析,取得隱藏在數(shù)據(jù)背后的變量關系,是一個很困難的問題。在神經(jīng)科學、氣象學、海洋學等等學科實驗中,假設的變量個數(shù)可能非常之多,但是真正的影響因素以及它們之間的關系可能又是非常之簡單的。??????下面的模型取自一個物理學中的實驗。它看上去比較簡單,但足以說明問題。如圖表1所示。這是一個理想彈簧運動規(guī)律的測定實驗。假設球是連接在一個無質量無摩擦的彈簧之上,從平衡位置沿軸拉開一定的距離然后釋放。?圖表1??????對于一個具有先驗知識的實驗者來說,這個實驗是非常

4、容易的。球的運動只是在x軸向上發(fā)生,只需要記錄下軸向上的運動序列并加以分析即可。但是,在真實世界中,對于第一次實驗的探索者來說(這也是實驗科學中最常遇到的一種情況),是不可能進行這樣的假設的。那么,一般來說,必須記錄下球的三維位置。這一點可以通過在不同角度放置三個攝像機實現(xiàn)(如圖所示),假設以的頻率拍攝畫面,就可以得到球在空間中的運動序列。但是,由于實驗的限制,這三臺攝像機的角度可能比較任意,并不是正交的。事實上,在真實世界中也并沒有所謂的軸,每個攝像機記錄下的都是一幅二維的圖像,有其自己的空間坐標系,球的空間位置是由一組二維坐

5、標記錄的:。經(jīng)過實驗,系統(tǒng)產(chǎn)生了幾分鐘內球的位置序列。怎樣從這些數(shù)據(jù)中得到球是沿著某個軸運動的規(guī)律呢?怎樣將實驗數(shù)據(jù)中的冗余變量剔除,化歸到這個潛在的軸上呢???????這是一個真實的實驗場景,數(shù)據(jù)的噪音是必須面對的因素。在這個實驗中噪音可能來自空氣、摩擦、攝像機的誤差以及非理想化的彈簧等等。噪音使數(shù)據(jù)變得混亂,掩蓋了變量間的真實關系。如何去除噪音是實驗者每天所要面對的巨大考驗。??????上面提出的兩個問題就是PCA方法的目標。PCA主元分析方法是解決此類問題的一個有力的武器。下文將結合以上的例子提出解決方案,逐步敘述PCA方

6、法的思想和求解過程。線形代數(shù):基變換??????從線形代數(shù)的角度來看,PCA的目標就是使用另一組基去重新描述得到的數(shù)據(jù)空間。而新的基要能盡量揭示原有的數(shù)據(jù)間的關系。在這個例子中,沿著某軸上的運動是最重要的。這個維度即最重要的“主元”。PCA的目標就是找到這樣的“主元”,最大程度的去除冗余和噪音的干擾。A.???標準正交基為了引入推導,需要將上文的數(shù)據(jù)進行明確的定義。在上面描述的實驗過程中,在每一個采樣時間點上,每個攝像機記錄了一組二維坐標,綜合三臺攝像機數(shù)據(jù),在每一個時間點上得到的位置數(shù)據(jù)對應于一個六維列向量。如果以的頻率拍攝1

7、0分鐘,將得到個這樣的向量數(shù)據(jù)。??????抽象一點來說,每一個采樣點數(shù)據(jù)都是在維向量空間(此例中)內的一個向量,這里的是牽涉的變量個數(shù)。由線形代數(shù)我們知道,在維向量空間中的每一個向量都是一組正交基的線形組合。最普通的一組正交基是標準正交基,實驗采樣的結果通??梢钥醋魇窃跇藴收换卤硎镜摹Ee例來說,上例中每個攝像機記錄的數(shù)據(jù)坐標為,這樣的基便是。那為什么不取或是其他任意的基呢?原因是,這樣的標準正交基反映了數(shù)據(jù)的采集方式。假設采集數(shù)據(jù)點是,一般并不會記錄(在基下),因為一般的觀測者都是習慣于取攝像機的屏幕坐標,即向上和向右的方

8、向作為觀測的基準。也就是說,標準正交基表現(xiàn)了數(shù)據(jù)觀測的一般方式。??????在線形代數(shù)中,這組基表示為行列向量線形無關的單位矩陣。B.???基變換從更嚴格的數(shù)學定義上來說,PCA回答的問題是:如何尋找到另一組正交基,它們是標準正交基的線性組合,而且能夠最好的表示

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。