資源描述:
《實驗六主成分分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、實驗課:主成分分析實驗?zāi)康睦斫庵鞒煞郑ㄒ蜃樱┓治龅幕驹?,熟悉并掌握SPSS中的主成分(因子)分析方法及其主要應(yīng)用。一、相關(guān)知識1概念因子分析(Factoranalysis):就是用少數(shù)幾個因子來描述許多指標或因素之間的聯(lián)系,以較少幾個因子來反映原資料的大部分信息的統(tǒng)計學(xué)分析方法。主成分分析(Principalcomponentanalysis):是因子分析的一個特例,是使用最多的因子提取方法。它通過坐標變換手段,將原有的多個相關(guān)變量,做線性變化,轉(zhuǎn)換為另外一組不相關(guān)的變量。選取前面幾個方差最大的主成分,這樣達到了因子分析較少變量個數(shù)的目的,同時又能與較少的變量反映原有變量的
2、絕大部分的信息。從數(shù)學(xué)角度來看,主成分分析是一種化繁為簡的降維處理技術(shù)。兩者關(guān)系:主成分分析(PCA)和因子分析(FA)是兩種把變量維數(shù)降低以便于描述、理解和分析的方法,而實際上主成分分析可以說是因子分析的一個特例。2特點(1)因子變量的數(shù)量遠少于原有的指標變量的數(shù)量,因而對因子變量的分析能夠減少分析中的工作量。(2)因子變量不是對原始變量的取舍,而是根據(jù)原始變量的信息進行重新組構(gòu),它能夠反映原有變量大部分的信息。(3)因子變量之間不存在顯著的線性相關(guān)關(guān)系,對變量的分析比較方便,但原始部分變量之間多存在較顯著的相關(guān)關(guān)系。(4)因子變量具有命名解釋性,即該變量是對某些原始變量信息
3、的綜合和反映。在保證數(shù)據(jù)信息丟失最少的原則下,對高維變量空間進行降維處理(即通過因子分析或主成分分析)。顯然,在一個低維空間解釋系統(tǒng)要比在高維系統(tǒng)容易的多。3類型根據(jù)研究對象的不同,把因子分析分為R型和Q型兩種。當研究對象是變量時,屬于R型因子分析;當研究對象是樣品時,屬于Q型因子分析。但有的因子分析方法兼有R型和Q型因子分析的一些特點,如因子分析中的對應(yīng)分析方法,有的學(xué)者稱之為雙重型因子分析,以示與其他兩類的區(qū)別。4分析原理假定:有n個地理樣本,每個樣本共有p個變量,構(gòu)成一個n×p階的地理數(shù)據(jù)矩陣:當p較大時,在p維空間中考察問題比較麻煩。這就需要進行降維處理,即用較少幾個綜
4、合指標代替原來指標,而且使這些綜合指標既能盡量多地反映原來指標所反映的信息,同時它們之間又是彼此獨立的。線性組合:記x1,x2,…,xP為原變量指標,z1,z2,…,zm(m≤p)為新變量指標(主成分),則其線性組合為:Lij是原變量在各主成分上的載荷無論是哪一種因子分析方法,其相應(yīng)的因子解都不是唯一的,主因子解僅僅是無數(shù)因子解中之一。Z為因子變量或公共因子,可以理解為在高維空間中互相垂直的m個坐標軸。zi與zj相互無關(guān);z1是x1,x2,…,xp的一切線性組合中方差最大者,z2是與z1不相關(guān)的x1,x2,…的所有線性組合中方差最大者。則,新變量指標z1,z2,…分別稱為原變量
5、指標的第一,第二,…主成分。主成分分析實質(zhì)就是確定原來變量xj(j=1,2,…,p)在各主成分zi(i=1,2,…,m)上的荷載lij。從數(shù)學(xué)上容易知道,從數(shù)學(xué)上也可以證明,它們分別是相關(guān)矩陣的m個較大的特征值所對應(yīng)的特征向量。5分析步驟5.1確定待分析的原有若干變量是否適合進行因子分析(第一步)因子分析是從眾多的原始變量中重構(gòu)少數(shù)幾個具有代表意義的因子變量的過程。其潛在的要求:原有變量之間要具有比較強的相關(guān)性。因此,因子分析需要先進行相關(guān)分析,計算原始變量之間的相關(guān)系數(shù)矩陣。如果相關(guān)系數(shù)矩陣在進行統(tǒng)計檢驗時,大部分相關(guān)系數(shù)均小于0.3且未通過檢驗,則這些原始變量就不太適合進行
6、因子分析。進行原始變量的相關(guān)分析之前,需要對輸入的原始數(shù)據(jù)進行標準化計算(一般采用標準差標準化方法,標準化后的數(shù)據(jù)均值為0,方差為1)。SPSS在因子分析中還提供了幾種判定是否適合因子分析的檢驗方法。主要有以下3種:巴特利特球形檢驗(BartlettTestofSphericity)反映象相關(guān)矩陣檢驗(Anti-imagecorrelationmatrix)KMO(Kaiser-Meyer-Olkin)檢驗(1)巴特利特球形檢驗該檢驗以變量的相關(guān)系數(shù)矩陣作為出發(fā)點,它的零假設(shè)H0為相關(guān)系數(shù)矩陣是一個單位陣,即相關(guān)系數(shù)矩陣對角線上的所有元素都為1,而所有非對角線上的元素都為0,也
7、即原始變量兩兩之間不相關(guān)。巴特利特球形檢驗的統(tǒng)計量是根據(jù)相關(guān)系數(shù)矩陣的行列式得到。如果該值較大,且其對應(yīng)的相伴概率值小于用戶指定的顯著性水平,那么就應(yīng)拒絕零假設(shè)H0,認為相關(guān)系數(shù)不可能是單位陣,也即原始變量間存在相關(guān)性。(2)反映象相關(guān)矩陣檢驗該檢驗以變量的偏相關(guān)系數(shù)矩陣作為出發(fā)點,將偏相關(guān)系數(shù)矩陣的每個元素取反,得到反映象相關(guān)矩陣。偏相關(guān)系數(shù)是在控制了其他變量影響的條件下計算出來的相關(guān)系數(shù),如果變量之間存在較多的重疊影響,那么偏相關(guān)系數(shù)就會較小,這些變量越適合進行因子分析。(3)KMO(K