資源描述:
《主成分分析ppt課件.ppt》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、主成分分析第一節(jié)主成分分析的原理第二節(jié)主成分的幾何意義及求解第三節(jié)主成分的性質(zhì)第四節(jié)主成分方法應(yīng)用中應(yīng)注意的問題第五節(jié)實(shí)例分析與計(jì)算機(jī)實(shí)現(xiàn)1第一節(jié)主成分分析的原理多元統(tǒng)計(jì)分析處理的是多變量(多指標(biāo))問題。由于變量較多,增加了分析問題的復(fù)雜性。但在實(shí)際問題中,變量之間可能存在一定的相關(guān)性,因此,多變量中可能存在信息的重疊。人們自然希望通過克服相關(guān)性、重疊性,用較少的變量來代替原來較多的變量,而這種代替可以反映原來多個(gè)變量的大部分信息,這實(shí)際上是一種“降維”的思想。利用這種“降維”的思想,誕生了“主成分分析”、“因子分析”、“典型相關(guān)分析”和
2、“偏最小二乘回歸”等統(tǒng)計(jì)方法。2主成分分析的基本思想主成分分析(Principalcomponentsanalysis),也稱主分量分析、主軸分析,是由Hotelling于1933年首先提出的。由于多個(gè)變量之間往往存在著一定程度的相關(guān)性。人們自然希望通過線性組合的方式,從這些指標(biāo)中盡可能快地提取信息。當(dāng)這些自變量的第一個(gè)線性組合不能提取更多的信息時(shí),再考慮用第二個(gè)線性組合繼續(xù)這個(gè)快速提取的過程,……,直到所提取的信息與原指標(biāo)相差不多時(shí)為止。這就是主成分分析的思想。一般說來,在主成分分析適用的場(chǎng)合,用較少的主成分就可以得到較多的信息量。以各
3、個(gè)主成分為分量,就得到一個(gè)更低維的隨機(jī)向量;因此,通過主成分既可以降低數(shù)據(jù)“維數(shù)”又保留了原數(shù)據(jù)的大部分信息。3例1:斯通關(guān)于國民經(jīng)濟(jì)的研究一項(xiàng)十分著名的工作是美國的統(tǒng)計(jì)學(xué)家斯通(Stone)在1947年關(guān)于國民經(jīng)濟(jì)的研究。他曾利用美國1929一1938年各年的數(shù)據(jù),得到了17個(gè)反映國民收入與支出的變量要素,例如雇主補(bǔ)貼、消費(fèi)資料和生產(chǎn)資料、純公共支出、凈增庫存、股息、利息外貿(mào)平衡等等。在進(jìn)行主成分分析后,竟以97.4%的精度,用三個(gè)新變量就取代了原17個(gè)變量。根據(jù)經(jīng)濟(jì)學(xué)知識(shí),斯通給這三個(gè)新變量分別命名為總收入F1、總收入變化率F2和經(jīng)濟(jì)
4、發(fā)展或衰退的趨勢(shì)F3。更有意思的是,這三個(gè)變量其實(shí)都是可以直接測(cè)量的。斯通將他得到的主成分與實(shí)際測(cè)量的總收入i、總收入變化率?i以及時(shí)間t因素做相關(guān)分析,得到下表:4F1F2F3iitF11F201F3001i0.995-0.0410.057li-0.0560.948-0.124-0.102lt-0.369-0.282-0.836-0.414-0.11215在醫(yī)學(xué)科學(xué)研究中經(jīng)常遇到多個(gè)指標(biāo)的問題,指標(biāo)多了帶來了統(tǒng)計(jì)分析的復(fù)雜性。如評(píng)價(jià)兒童生長發(fā)育,某研究者收集了一批兒童的身高、體重、胸圍、肺活量等12個(gè)指標(biāo)的資料,如何利用這12個(gè)指標(biāo)對(duì)兒
5、童生長發(fā)育作出評(píng)價(jià)?如果僅用其中任一個(gè)指標(biāo)進(jìn)行評(píng)價(jià),其結(jié)論顯然是片面的,而且不能充分利用己有的數(shù)據(jù)信息。如果分別利用其中每一個(gè)指標(biāo)進(jìn)行評(píng)價(jià),然后綜合各指標(biāo)評(píng)價(jià)的結(jié)論,這樣做一是可能會(huì)出現(xiàn)各指標(biāo)評(píng)價(jià)結(jié)論不一致,甚至相互沖突,從而給最后的綜合評(píng)價(jià)帶來困難;二是工作量明顯增大,不利于進(jìn)一步的統(tǒng)計(jì)分析。6事實(shí)上,在實(shí)際工作中,所涉及到的眾多指標(biāo)之間經(jīng)常是有相互聯(lián)系和影響的,從這一點(diǎn)出發(fā),通過對(duì)原始指標(biāo)相互關(guān)系的研究,找出少數(shù)幾個(gè)綜合指標(biāo),這些綜合指標(biāo)是原始指標(biāo)的線性組合,它即保留原始指標(biāo)的主要信息,且又互不相關(guān)。這種從眾多原始指標(biāo)之間相互關(guān)系入手
6、,尋找少數(shù)綜合指標(biāo)以概括原始指標(biāo)信息的多元統(tǒng)計(jì)方法稱為主成分分析。7第二節(jié)主成分的幾何意義及求解一主成分的幾何意義二主成分的求解8一、主成分的數(shù)學(xué)模型及幾何意義一)數(shù)學(xué)模型設(shè)有m個(gè)指標(biāo)X1,X2,。。。Xm,欲尋找可以概括這m個(gè)指標(biāo)主要信息的綜合指標(biāo)Y1,Y1,Y2,….Ym。從數(shù)學(xué)上講,就是尋找一組常數(shù)ai1,ai2,…..aim,使這m個(gè)指標(biāo)的線性組合:9Y1,…Ym,它們滿足:1)各Yi是原指標(biāo)的線性函數(shù)2)各Yi互不相關(guān)3)Y1,…Ym提供原指標(biāo)所含的全部信息,且Y1提供的信息最多,Y2次之,…,Yp最少。稱Yi為原指標(biāo)
7、,X1….Xm的第i個(gè)主成分(i=1,2,…,m).由于主成分Yi所提供的信息,隨著i的增大而減少,故實(shí)際應(yīng)用時(shí)可用前p個(gè)(p8、且它們的變異主要集中在Y1方向上,而在Y2方向上則變異較小。這時(shí),若取Y1作為第一主成分,則Y1就反映了原始指標(biāo)X1、X2所包含的主要信息。11圖1主成分分析示意圖圖212如下頁圖示,考慮兩種