主元分析pca理論分析及應用

主元分析pca理論分析及應用

ID:18600872

大?。?82.27 KB

頁數:15頁

時間:2018-09-19

主元分析pca理論分析及應用_第1頁
主元分析pca理論分析及應用_第2頁
主元分析pca理論分析及應用_第3頁
主元分析pca理論分析及應用_第4頁
主元分析pca理論分析及應用_第5頁
資源描述:

《主元分析pca理論分析及應用》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。

1、主元分析(PCA)理論分析及應用什么是PCA?PCA是Principalcomponentanalysis的縮寫,中文翻譯為主元分析。它是一種對數據進行分析的技術,最重要的應用是對原有數據進行簡化。正如它的名字:主元分析,這種方法可以有效的找出數據中最“主要”的元素和結構,去除噪音和冗余,將原有的復雜數據降維,揭示隱藏在復雜數據背后的簡單結構。它的優(yōu)點是簡單,而且無參數限制,可以方便的應用與各個場合。因此應用極其廣泛,從神經科學到計算機圖形學都有它的用武之地。被譽為應用線形代數最價值的結果之一。在以下的章節(jié)中,不僅有對P

2、CA的比較直觀的解釋,同時也配有較為深入的分析。首先將從一個簡單的例子開始說明PCA應用的場合以及想法的由來,進行一個比較直觀的解釋;然后加入數學的嚴格推導,引入線形代數,進行問題的求解。隨后將揭示PCA與SVD(SingularValueDecomposition)之間的聯(lián)系以及如何將之應用于真實世界。最后將分析PCA理論模型的假設條件以及針對這些條件可能進行的改進。一個簡單的模型在實驗科學中我常遇到的情況是,使用大量的變量代表可能變化的因素,例如光譜、電壓、速度等等。但是由于實驗環(huán)境和觀測手段的限制,實驗數據往往變得

3、極其的復雜、混亂和冗余的。如何對數據進行分析,取得隱藏在數據背后的變量關系,是一個很困難的問題。在神經科學、氣象學、海洋學等等學科實驗中,假設的變量個數可能非常之多,但是真正的影響因素以及它們之間的關系可能又是非常之簡單的。下面的模型取自一個物理學中的實驗。它看上去比較簡單,但足以說明問題。如圖表1所示。這是一個理想彈簧運動規(guī)律的測定實驗。假設球是連接在一個無質量無摩擦的彈簧之上,從平衡位置沿軸拉開一定的距離然后釋放。圖表1對于一個具有先驗知識的實驗者來說,這個實驗是非常容易的。球的運動只是在x軸向上發(fā)生,只需要記錄下軸

4、向上的運動序列并加以分析即可。但是,在真實世界中,對于第一次實驗的探索者來說(這也是實驗科學中最常遇到的一種情況),是不可能進行這樣的假設的。那么,一般來說,必須記錄下球的三維位置。這一點可以通過在不同角度放置三個攝像機實現(如圖所示),假設以的頻率拍攝畫面,就可以得到球在空間中的運動序列。但是,由于實驗的限制,這三臺攝像機的角度可能比較任意,并不是正交的。事實上,在真實世界中也并沒有所謂的軸,每個攝像機記錄下的都是一幅二維的圖像,有其自己的空間坐標系,球的空間位置是由一組二維坐標記錄的:。經過實驗,系統(tǒng)產生了幾分鐘內球

5、的位置序列。怎樣從這些數據中得到球是沿著某個軸運動的規(guī)律呢?怎樣將實驗數據中的冗余變量剔除,化歸到這個潛在的軸上呢?這是一個真實的實驗場景,數據的噪音是必須面對的因素。在這個實驗中噪音可能來自空氣、摩擦、攝像機的誤差以及非理想化的彈簧等等。噪音使數據變得混亂,掩蓋了變量間的真實關系。如何去除噪音是實驗者每天所要面對的巨大考驗。上面提出的兩個問題就是PCA方法的目標。PCA主元分析方法是解決此類問題的一個有力的武器。下文將結合以上的例子提出解決方案,逐步敘述PCA方法的思想和求解過程。線形代數:基變換從線形代數的角度來看,

6、PCA的目標就是使用另一組基去重新描述得到的數據空間。而新的基要能盡量揭示原有的數據間的關系。在這個例子中,沿著某軸上的運動是最重要的。這個維度即最重要的“主元”。PCA的目標就是找到這樣的“主元”,最大程度的去除冗余和噪音的干擾。A.標準正交基為了引入推導,需要將上文的數據進行明確的定義。在上面描述的實驗過程中,在每一個采樣時間點上,每個攝像機記錄了一組二維坐標,綜合三臺攝像機數據,在每一個時間點上得到的位置數據對應于一個六維列向量。如果以的頻率拍攝10分鐘,將得到個這樣的向量數據。抽象一點來說,每一個采樣點數據都是在

7、維向量空間(此例中)內的一個向量,這里的是牽涉的變量個數。由線形代數我們知道,在維向量空間中的每一個向量都是一組正交基的線形組合。最普通的一組正交基是標準正交基,實驗采樣的結果通??梢钥醋魇窃跇藴收换卤硎镜?。舉例來說,上例中每個攝像機記錄的數據坐標為,這樣的基便是。那為什么不取或是其他任意的基呢?原因是,這樣的標準正交基反映了數據的采集方式。假設采集數據點是,一般并不會記錄(在基下),因為一般的觀測者都是習慣于取攝像機的屏幕坐標,即向上和向右的方向作為觀測的基準。也就是說,標準正交基表現了數據觀測的一般方式。在線形代

8、數中,這組基表示為行列向量線形無關的單位矩陣。B.基變換從更嚴格的數學定義上來說,PCA回答的問題是:如何尋找到另一組正交基,它們是標準正交基的線性組合,而且能夠最好的表示數據集?這里提出了PCA方法的一個最關鍵的假設:線性。這是一個非常強的假設條件。它使問題得到了很大程度的簡化:1)數據被限制在一個向量空間中,能被

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。