資源描述:
《主元分析pca理論分析及應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、主元分析(PCA)理論分析及應(yīng)用什么是PCA?PCA是Principalcomponentanalysis的縮寫(xiě),中文翻譯為主元分析。它是一種對(duì)數(shù)據(jù)進(jìn)行分析的技術(shù),最重要的應(yīng)用是對(duì)原有數(shù)據(jù)進(jìn)行簡(jiǎn)化。正如它的名字:主元分析,這種方法可以有效的找出數(shù)據(jù)中最“主要”的元素和結(jié)構(gòu),去除噪音和冗余,將原有的復(fù)雜數(shù)據(jù)降維,揭示隱藏在復(fù)雜數(shù)據(jù)背后的簡(jiǎn)單結(jié)構(gòu)。它的優(yōu)點(diǎn)是簡(jiǎn)單,而且無(wú)參數(shù)限制,可以方便的應(yīng)用與各個(gè)場(chǎng)合。因此應(yīng)用極其廣泛,從神經(jīng)科學(xué)到計(jì)算機(jī)圖形學(xué)都有它的用武之地。被譽(yù)為應(yīng)用線(xiàn)形代數(shù)最價(jià)值的結(jié)果之一。在以下的章節(jié)中,不僅有對(duì)PC
2、A的比較直觀的解釋?zhuān)瑫r(shí)也配有較為深入的分析。首先將從一個(gè)簡(jiǎn)單的例子開(kāi)始說(shuō)明PCA應(yīng)用的場(chǎng)合以及想法的由來(lái),進(jìn)行一個(gè)比較直觀的解釋?zhuān)蝗缓蠹尤霐?shù)學(xué)的嚴(yán)格推導(dǎo),引入線(xiàn)形代數(shù),進(jìn)行問(wèn)題的求解。隨后將揭示PCA與SVD(SingularValueDecomposition)之間的聯(lián)系以及如何將之應(yīng)用于真實(shí)世界。最后將分析PCA理論模型的假設(shè)條件以及針對(duì)這些條件可能進(jìn)行的改進(jìn)。一個(gè)簡(jiǎn)單的模型在實(shí)驗(yàn)科學(xué)中我常遇到的情況是,使用大量的變量代表可能變化的因素,例如光譜、電壓、速度等等。但是由于實(shí)驗(yàn)環(huán)境和觀測(cè)手段的限制,實(shí)驗(yàn)數(shù)據(jù)往往變得極其
3、的復(fù)雜、混亂和冗余的。如何對(duì)數(shù)據(jù)進(jìn)行分析,取得隱藏在數(shù)據(jù)背后的變量關(guān)系,是一個(gè)很困難的問(wèn)題。在神經(jīng)科學(xué)、氣象學(xué)、海洋學(xué)等等學(xué)科實(shí)驗(yàn)中,假設(shè)的變量個(gè)數(shù)可能非常之多,但是真正的影響因素以及它們之間的關(guān)系可能又是非常之簡(jiǎn)單的。下面的模型取自一個(gè)物理學(xué)中的實(shí)驗(yàn)。它看上去比較簡(jiǎn)單,但足以說(shuō)明問(wèn)題。如圖表1所示。這是一個(gè)理想彈簧運(yùn)動(dòng)規(guī)律的測(cè)定實(shí)驗(yàn)。假設(shè)球是連接在一個(gè)無(wú)質(zhì)量無(wú)摩擦的彈簧之上,從平衡位置沿軸拉開(kāi)一定的距離然后釋放。圖表1對(duì)于一個(gè)具有先驗(yàn)知識(shí)的實(shí)驗(yàn)者來(lái)說(shuō),這個(gè)實(shí)驗(yàn)是非常容易的。球的運(yùn)動(dòng)只是在x軸向上發(fā)生,只需要記錄下軸向上的
4、運(yùn)動(dòng)序列并加以分析即可。但是,在真實(shí)世界中,對(duì)于第一次實(shí)驗(yàn)的探索者來(lái)說(shuō)(這也是實(shí)驗(yàn)科學(xué)中最常遇到的一種情況),是不可能進(jìn)行這樣的假設(shè)的。那么,一般來(lái)說(shuō),必須記錄下球的三維位置。這一點(diǎn)可以通過(guò)在不同角度放置三個(gè)攝像機(jī)實(shí)現(xiàn)(如圖所示),假設(shè)以的頻率拍攝畫(huà)面,就可以得到球在空間中的運(yùn)動(dòng)序列。但是,由于實(shí)驗(yàn)的限制,這三臺(tái)攝像機(jī)的角度可能比較任意,并不是正交的。事實(shí)上,在真實(shí)世界中也并沒(méi)有所謂的軸,每個(gè)攝像機(jī)記錄下的都是一幅二維的圖像,有其自己的空間坐標(biāo)系,球的空間位置是由一組二維坐標(biāo)記錄的:。經(jīng)過(guò)實(shí)驗(yàn),系統(tǒng)產(chǎn)生了幾分鐘內(nèi)球的位置序
5、列。怎樣從這些數(shù)據(jù)中得到球是沿著某個(gè)軸運(yùn)動(dòng)的規(guī)律呢?怎樣將實(shí)驗(yàn)數(shù)據(jù)中的冗余變量剔除,化歸到這個(gè)潛在的軸上呢?這是一個(gè)真實(shí)的實(shí)驗(yàn)場(chǎng)景,數(shù)據(jù)的噪音是必須面對(duì)的因素。在這個(gè)實(shí)驗(yàn)中噪音可能來(lái)自空氣、摩擦、攝像機(jī)的誤差以及非理想化的彈簧等等。噪音使數(shù)據(jù)變得混亂,掩蓋了變量間的真實(shí)關(guān)系。如何去除噪音是實(shí)驗(yàn)者每天所要面對(duì)的巨大考驗(yàn)。上面提出的兩個(gè)問(wèn)題就是PCA方法的目標(biāo)。PCA主元分析方法是解決此類(lèi)問(wèn)題的一個(gè)有力的武器。下文將結(jié)合以上的例子提出解決方案,逐步敘述PCA方法的思想和求解過(guò)程。線(xiàn)形代數(shù):基變換從線(xiàn)形代數(shù)的角度來(lái)看,PCA的目
6、標(biāo)就是使用另一組基去重新描述得到的數(shù)據(jù)空間。而新的基要能盡量揭示原有的數(shù)據(jù)間的關(guān)系。在這個(gè)例子中,沿著某軸上的運(yùn)動(dòng)是最重要的。這個(gè)維度即最重要的“主元”。PCA的目標(biāo)就是找到這樣的“主元”,最大程度的去除冗余和噪音的干擾。A.標(biāo)準(zhǔn)正交基為了引入推導(dǎo),需要將上文的數(shù)據(jù)進(jìn)行明確的定義。在上面描述的實(shí)驗(yàn)過(guò)程中,在每一個(gè)采樣時(shí)間點(diǎn)上,每個(gè)攝像機(jī)記錄了一組二維坐標(biāo),綜合三臺(tái)攝像機(jī)數(shù)據(jù),在每一個(gè)時(shí)間點(diǎn)上得到的位置數(shù)據(jù)對(duì)應(yīng)于一個(gè)六維列向量。如果以的頻率拍攝10分鐘,將得到個(gè)這樣的向量數(shù)據(jù)。抽象一點(diǎn)來(lái)說(shuō),每一個(gè)采樣點(diǎn)數(shù)據(jù)都是在維向量空間(
7、此例中)內(nèi)的一個(gè)向量,這里的是牽涉的變量個(gè)數(shù)。由線(xiàn)形代數(shù)我們知道,在維向量空間中的每一個(gè)向量都是一組正交基的線(xiàn)形組合。最普通的一組正交基是標(biāo)準(zhǔn)正交基,實(shí)驗(yàn)采樣的結(jié)果通??梢钥醋魇窃跇?biāo)準(zhǔn)正交基下表示的。舉例來(lái)說(shuō),上例中每個(gè)攝像機(jī)記錄的數(shù)據(jù)坐標(biāo)為,這樣的基便是。那為什么不取或是其他任意的基呢?原因是,這樣的標(biāo)準(zhǔn)正交基反映了數(shù)據(jù)的采集方式。假設(shè)采集數(shù)據(jù)點(diǎn)是,一般并不會(huì)記錄(在基下),因?yàn)橐话愕挠^測(cè)者都是習(xí)慣于取攝像機(jī)的屏幕坐標(biāo),即向上和向右的方向作為觀測(cè)的基準(zhǔn)。也就是說(shuō),標(biāo)準(zhǔn)正交基表現(xiàn)了數(shù)據(jù)觀測(cè)的一般方式。在線(xiàn)形代數(shù)中,這組基表
8、示為行列向量線(xiàn)形無(wú)關(guān)的單位矩陣。B.基變換從更嚴(yán)格的數(shù)學(xué)定義上來(lái)說(shuō),PCA回答的問(wèn)題是:如何尋找到另一組正交基,它們是標(biāo)準(zhǔn)正交基的線(xiàn)性組合,而且能夠最好的表示數(shù)據(jù)集?這里提出了PCA方法的一個(gè)最關(guān)鍵的假設(shè):線(xiàn)性。這是一個(gè)非常強(qiáng)的假設(shè)條件。它使問(wèn)題得到了很大程度的簡(jiǎn)化:1)數(shù)據(jù)被限制在一個(gè)向量空間中,能被