資源描述:
《主成分分析(主元分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、PCA原理1因為經(jīng)常做一些圖像和信號處理的工作,要用到主元分析(PrincipalComponentsAnalysis)作為工具。寫出來供自己和朋友參考。PCA是一種統(tǒng)計技術(shù),經(jīng)常應(yīng)用于人面部識別和圖像壓縮以及信號去噪等領(lǐng)域,是在高維數(shù)據(jù)中提取模式的一種常用技術(shù)。要了解PCA首先要了解一些相關(guān)的數(shù)學(xué)知識,這里主要介紹協(xié)方差矩陣、特征值與特征矢量的概念。I、協(xié)方差矩陣協(xié)方差總是在兩維數(shù)據(jù)之間進行度量,如果我們具有超過兩維的數(shù)據(jù),將會有多于兩個的協(xié)方差。例如對于三維數(shù)據(jù)(x,y,z維),需要計算cov(x,y),cov(y,z)和cov(z,x)o
2、獲得所有維數(shù)之間協(xié)方差的方法是計算協(xié)方差矩陣。維數(shù)據(jù)協(xié)方差矩陣的定義為j=cov(Diint,Dimi))(l)這個公式告訴我們,如果我們有一個n維數(shù)據(jù),那么協(xié)方差矩陣就是一個n行n列的方矩陣,矩陣的每一個元素是兩個不同維數(shù)據(jù)之間的協(xié)方差。它的元素值為:對于一個3維數(shù)據(jù)(x,y,z),協(xié)方差矩陣有3行3列,需要注意的是:沿著主對角線,可以看到元素值是同一維數(shù)據(jù)之間的協(xié)方差,這正好是該維數(shù)據(jù)的方差。對于其它元素,因為cov(a,b)=cov(b,a),所以協(xié)方差矩陣是關(guān)于主對角線對稱的。coV(:V)cov(”x)COV(N,X)cov(V,V)
3、COV(N」)2、特征值和特征矢量只要矩陣大小合適,就可以進行兩矩陣相乘,特征矢量就是其中的一個特例??紤]圖2.1中兩個矩陣和矢量乘法。廠2■2廠2<2圖2.1—個非特征矢量和一個特征矢量的例子圖2.22x332-個縮放的特征矢量仍然是一個特征矢量在第一個例子中,結(jié)果矢量不是原來因子矢量與整數(shù)相乘,然而在第二個例子中,結(jié)果矢量是原來因子矢量的4倍,為什么會這樣呢?該矢量是一個2維空間矢量,在第一個例子中,結(jié)果矢量不是原來因子矢量與整數(shù)相乘,然而在第二個例子中,結(jié)果矢量是原來因子矢量的4倍,為什么會這樣呢?該矢量是一個2維空間矢量,表示從原點(0
4、,0)指向點(3,2)的箭矢。方矩陣因子可以看作是轉(zhuǎn)換矩陣,一個矢量左乘該轉(zhuǎn)換矩陣,意味著原始矢量轉(zhuǎn)換為一個新矢量。特征矢量來自于轉(zhuǎn)換特性。設(shè)想一個轉(zhuǎn)換矩陣,如果用其左乘一個矢量,映射矢量是它自身,這個矢量(以及它的所有尺度縮放)就是該轉(zhuǎn)換矩陣的特征矢量。特征矢量有什么特性呢?首先只有方陣才有特征矢量,而且并不是所有方陣都有特征矢量,如果一個nXn方陣有特征矢量,那么它有n個特征矢量。特征矢量的另外一個性質(zhì)是對特征矢量的縮放會得到縮放前同樣地結(jié)果,如圖2.2所示,這是因為你對矢量的縮放只是改變它的長度,不會改變它的方向。最后,矩陣的所有特征矢量
5、是正交的。這是一個菲常重要的性質(zhì),因為這意味著你可以在這些正交矢量上表示一組數(shù)據(jù),而不僅是在x和y軸上。在下面的PCA小節(jié)內(nèi)我們將作這個工作。另外一個需要了解的是數(shù)學(xué)家尋找特征矢量,總喜歡尋找長度為1的那一個特征矢量,這是因為矢量的長度不影響它是否是特征矢量,因此,為了保證特征矢量是標(biāo)準(zhǔn)的矢量,我們通常將特征矢量的長度縮放為1,從而所有的特征矢量都有相同的長度。怎樣去找到這些神秘的特征矢量呢?不幸的是,只有對相當(dāng)小維數(shù)的矩陣才有簡單地方法,比如不超過3X3,對于較大維數(shù)的矩陣,需要復(fù)雜的迭代算法。特征值是與特征矢量極其相關(guān)的,事實上,在圖2.1
6、中我們已經(jīng)看到了一個特征值。注意在兩個例子中,原始矢量左乘方陣后與矢量縮放數(shù)一樣。在這個例子中,縮放數(shù)為4。4就是對應(yīng)該特征矢量的特征值。不管在左乘方陣之前如何縮放特征矢量,我們總是得到該矢量的4倍(如圖2.2)。所以特征值和特征矢量總是成對岀現(xiàn),當(dāng)你使用程序計算特征矢量時,你總是同時得到對應(yīng)的特征值。3、主成分分析(PCA)最后我們將進行主成分分析的介紹,那么什么是主成分分析呢?它是一種在數(shù)據(jù)屮辨別模式的方法,表達數(shù)據(jù)的相似與不同Z處的方法。因為高維數(shù)據(jù)的模式難以發(fā)現(xiàn)一一圖形表述不可用,PCA是一個有力的數(shù)據(jù)分析工具。PCA的另外一個重要優(yōu)勢
7、是,一旦你找到了數(shù)據(jù)的這些模式,你可以壓縮它,也就是在不丟失很多信息的基礎(chǔ)上,降低數(shù)據(jù)的維數(shù)。在下一節(jié)將會看到,這種技術(shù)被用于圖像壓縮。本節(jié)將一步一步地帶你對一組數(shù)據(jù)進行PCA操作。我將不具體描述該技術(shù)為什么適用,只是介紹怎樣使用該技術(shù)?!?」方法第一步:獲得數(shù)據(jù)在我簡單的例子屮,將使用我自己制作的2維數(shù)據(jù),使用2維數(shù)據(jù)的原因是我可以提供這些數(shù)據(jù)的圖形,以便直觀地觀察PCA的操作步驟。下面就是我使用的數(shù)據(jù)x二[2.5,0.5,2.2,1?9,3.1,2.3,2,1,1.5,1.1]Ty二[2.4,0.7,2.9,2.2,3.0,2.7,1.6,
8、1.1,1.6,0.9]T第二步:減去均值要使PCA正常工作,必須減去數(shù)據(jù)的均值。減去的均值為每一維的平均,所有的x值都要減去,同樣所有的y值都要減去