資源描述:
《主成分分析ppt課件.ppt》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、主成分分析組員:時(shí)偉羅育奎謝權(quán)楊金龍環(huán)境學(xué)院2021/8/28主成分分析的重點(diǎn)1、掌握什么是主成分分析;2、理解主成分分析的基本思想;3、理解主成分求解方法;2021/8/28一、主成分分析的基本思想主成分分析:將原來(lái)較多的指標(biāo)簡(jiǎn)化為少數(shù)幾個(gè)新的綜合指標(biāo)的多元統(tǒng)計(jì)方法。主成分:由原始指標(biāo)綜合形成的幾個(gè)新指標(biāo)。依據(jù)主成分所含信息量的大小成為第一主成分,第二主成分等等。2021/8/28主成分分析得到的主成分與原始變量之間的關(guān)系:1、主成分保留了原始變量絕大多數(shù)信息。2、主成分的個(gè)數(shù)大大少于原始變量的數(shù)目。3、各個(gè)主成分之間互不相關(guān)。4、每個(gè)
2、主成分都是原始變量的線(xiàn)性組合。2021/8/28主成分分析的運(yùn)用:1、對(duì)一組內(nèi)部相關(guān)的變量作簡(jiǎn)化的描述2、用來(lái)削減回歸分析或群集分析(Cluster)中變量的數(shù)目3、用來(lái)檢查異常點(diǎn)4、用來(lái)作多重共線(xiàn)性鑒定5、用來(lái)做原來(lái)數(shù)據(jù)的常態(tài)檢定2021/8/28二、數(shù)學(xué)模型假設(shè)我們所討論的實(shí)際問(wèn)題中,有p個(gè)指標(biāo),我們把這p個(gè)指標(biāo)看作p個(gè)隨機(jī)變量,記為X1,X2,…,Xp,主成分分析就是要把這p個(gè)指標(biāo)的問(wèn)題,轉(zhuǎn)變?yōu)橛懻損個(gè)指標(biāo)的線(xiàn)性組合的問(wèn)題,而這些新的指標(biāo)F1,F2,…,Fk(k≤p),按照保留主要信息量的原則充分反映原指標(biāo)的信息,并且相互獨(dú)立。20
3、21/8/28這種由討論多個(gè)指標(biāo)降為少數(shù)幾個(gè)綜合指標(biāo)的過(guò)程在數(shù)學(xué)上就叫做降維。主成分分析通常的做法是,尋求原指標(biāo)的線(xiàn)性組合Fi。2021/8/28滿(mǎn)足如下的條件:1、每個(gè)主成分的系數(shù)平方和為1。即2、主成分之間相互獨(dú)立,即無(wú)重疊的信息。即3、主成分的方差依次遞減,重要性依次遞減,即F1,F2,…,Fp分別稱(chēng)為原變量的第一、第二、…、第p個(gè)主成分。2021/8/28主成分分析的幾何解釋假設(shè)有個(gè)樣品,每個(gè)樣品有二個(gè)變量,即在二維空間中討論主成分的幾何意義。設(shè)個(gè)樣品在二維空間中的分布大致為一個(gè)橢園,如下圖所示:將坐標(biāo)系進(jìn)行正交旋轉(zhuǎn)一個(gè)角度,使其
4、橢圓長(zhǎng)軸方向取坐標(biāo)y1,在橢圓短軸方向取坐標(biāo)y2,旋轉(zhuǎn)公式為:經(jīng)過(guò)旋轉(zhuǎn)變換,得到下面的新坐標(biāo)2021/8/28了解了主成分分析的基本思想、數(shù)學(xué)模型后,問(wèn)題的關(guān)鍵:1、如何進(jìn)行主成分分析?(主成分分析的方法)基于相關(guān)系數(shù)矩陣還是基于協(xié)方差矩陣做主成分分析。當(dāng)分析中所選擇的經(jīng)濟(jì)變量具有不同的量綱,變量水平差異很大,應(yīng)該選擇基于相關(guān)系數(shù)矩陣的主成分分析。2、如何確定主成分個(gè)數(shù)?主成分分析的目的是簡(jiǎn)化變量,一般情況下主成分的個(gè)數(shù)應(yīng)該小于原始變量的個(gè)數(shù)。關(guān)于保留幾個(gè)主成分,應(yīng)該權(quán)衡主成分個(gè)數(shù)和保留的信息。2021/8/28矩陣知識(shí)回顧:(1)特征根
5、與特征向量A、若對(duì)任意的k階方陣C,有數(shù)字與向量滿(mǎn)足:,則稱(chēng)為C的特征根,為C的相應(yīng)于的特征向量。B、同時(shí),方陣C的特征根是k階方程的根。(2)任一k階方陣C的特征根的性質(zhì):2021/8/28(3)任一k階的實(shí)對(duì)稱(chēng)矩陣C的性質(zhì):A、實(shí)對(duì)稱(chēng)矩陣C的非零特征根的數(shù)目=C的秩B、k階的實(shí)對(duì)稱(chēng)矩陣存在k個(gè)實(shí)特征根C、實(shí)對(duì)稱(chēng)矩陣的不同特征根的特征向量是正交的D、若是實(shí)對(duì)稱(chēng)矩陣C的單位特征向量,則若矩陣,是由特征向量所構(gòu)成的,則有:2021/8/28很顯然,均值描述的是樣本集合的中間點(diǎn),它告訴我們的信息是很有限的,而標(biāo)準(zhǔn)差給我們描述的則是樣本集合的各
6、個(gè)樣本點(diǎn)到均值的距離之平均。以這兩個(gè)集合為例,[0,8,12,20]和[8,9,11,12],兩個(gè)集合的均值都是10,但顯然兩個(gè)集合差別是很大的,計(jì)算兩者的標(biāo)準(zhǔn)差,前者是8.3,后者是1.8,顯然后者較為集中,故其標(biāo)準(zhǔn)差小一些,標(biāo)準(zhǔn)差描述的就是這種“散布度”。之所以除以n-1而不是除以n,是因?yàn)檫@樣能使我們以較小的樣本集更好的逼近總體的標(biāo)準(zhǔn)差,即統(tǒng)計(jì)上所謂的“無(wú)偏估計(jì)”。而方差則僅僅是標(biāo)準(zhǔn)差的平方統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)2021/8/28我們應(yīng)該注意到,標(biāo)準(zhǔn)差和方差一般是用來(lái)描述一維數(shù)據(jù)的,但現(xiàn)實(shí)生活我們常常遇到含有多維數(shù)據(jù)的數(shù)據(jù)集,最簡(jiǎn)單的大家上
7、學(xué)時(shí)免不了要統(tǒng)計(jì)多個(gè)學(xué)科的考試成績(jī)。面對(duì)這樣的數(shù)據(jù)集,我們就引入?yún)f(xié)方差的概念。我們可以仿照方差的定義:2021/8/28協(xié)方差可以這么來(lái)定義:2021/8/28協(xié)方差的結(jié)果有什么意義呢?如果結(jié)果為正值,則說(shuō)明兩者是正相關(guān)的(從協(xié)方差可以引出“相關(guān)系數(shù)”的定義),結(jié)果為負(fù)值就說(shuō)明負(fù)相關(guān)的,如果為0,也是就是統(tǒng)計(jì)上說(shuō)的“相互獨(dú)立”。從協(xié)方差的定義上我們也可以看出一些顯而易見(jiàn)的性質(zhì),如:2021/8/28協(xié)方差矩陣的定義:我們可以舉一個(gè)簡(jiǎn)單的三維的例子,假設(shè)數(shù)據(jù)集有三個(gè)維度,則協(xié)方差矩陣為可見(jiàn),協(xié)方差矩陣是一個(gè)對(duì)稱(chēng)的矩陣,而且對(duì)角線(xiàn)是各個(gè)維度上
8、的方差。2021/8/28主成分分析的目標(biāo):1、從相關(guān)的X1,X2,…,Xk,求出相互獨(dú)立的新綜合變量(主成分)Y1,Y2,…,Yk。2、Y=(Y1,Y2,…,Yk)’所反映信息的含量無(wú)遺漏或