資源描述:
《主成分分析、聚類分析比較》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、主成分分析、聚類分析的比較與應(yīng)用主成分分析、聚類分析的比較與應(yīng)用摘要:主成分分析、聚類分析是兩種比較有價值的多元統(tǒng)計方法,但同吋也是在使用過程中容易誤用或混淆的兒種方法。本文從基本思想、數(shù)據(jù)的標準化、應(yīng)用上的優(yōu)缺點等方而,詳細地探討了兩者的異同,并且舉例說明了兩者在實際問題中的應(yīng)用。關(guān)鍵詞:SPSS、主成分分析、聚類分析一、基本概念主成分分析就是設(shè)法將原來眾多具有一定相關(guān)性(比如P個指標),重新組合成一組新的互相無關(guān)的綜合指標來代替原來的指標。綜合指標即為主成分。所得出的少數(shù)幾個主成分,要盡可能多地保留原始變量的信息,月?彼此不相關(guān)。因了分析是研究如何以最少
2、的信息丟失,將眾多原始變量濃縮成少數(shù)幾個因了變量,以及如何使因子變量具冇較強的可解釋性的一種多元統(tǒng)計分析方法。聚類分析是依據(jù)實驗數(shù)據(jù)木身所具有的定性或定量的特征來對大量的數(shù)據(jù)進行分組歸類以了解數(shù)據(jù)集的內(nèi)在結(jié)構(gòu),并口對每一個數(shù)據(jù)集進行描述的過程。其主要依據(jù)是聚到同一個數(shù)據(jù)集屮的樣本應(yīng)該彼此相似,而屈于不同組的樣本應(yīng)該足夠不相似。二、基本思想的異同(一)共同點主成分分析法和因了分析法都是用少數(shù)的幾個變量(因了)來綜合反映原始變量(因子)的主要信息,變量雖然較原始變量少,但所包含的信息量卻占原始信息的85%以上,所以即使用少數(shù)的幾個新變量,可信度也很高,也可以有效
3、地解釋問題。并且新的變量彼此間互不相關(guān),消除了多重共線性。這兩種分析法得出的新變量,并不是原始變量篩選后剩余的變量。在主成分分析中,最終確定的新變量是原始變量的線性組合,如原始變量為xl,x2,???,x3,經(jīng)過坐標變換,將原冇的P個相關(guān)變量Xi作線性變換,每個主成分都是由原冇P個變量線性組合得到。在諸多主成分Zi中,Z1在方差中占的比重最大,說明它綜合原冇變量的能力最強,越往后主成分在方差中的比重也小,綜合原信息的能力越弱。因子分析是要利用少數(shù)幾個公共因子去解釋較多個要觀測變量屮存在的復(fù)雜關(guān)系,它不是對原始變量的重新組合,而是對原始變量進行分解,分解為公共
4、因子與特殊因子兩部分。公共因子是由所冇變量共同具冇的少數(shù)幾個因子;特殊因了是每個原始變量獨口具有的因了。對新產(chǎn)生的主成分變量及因子變量計算其得分,就可以將主成分得分或因子得分代替原始變量進行進一步的分析,因為主成分變量及因子變量比原始變量少了許多,所以起到了降維的作用,為我們處理數(shù)據(jù)降低了難度。聚類分析的基本思想是:采用多變量的統(tǒng)計值,定量地確定相互Z間的親疏關(guān)系,考慮對象多因素的聯(lián)系和主導(dǎo)作用,按它們親疏差異程度,歸入不同的分類中一元,使分類更具客觀實際并能反映事物的內(nèi)在必然聯(lián)系。也就是說,聚類分析是把研究對象視作多維空間屮的許多點,并合理地分成若干類,因
5、此它是一種根據(jù)變量域之間的相似性而逐步歸群成類的方法,它能客觀地反映這些變量或區(qū)域Z間的內(nèi)在組合關(guān)系。聚類分析是通過一個大的對稱矩陣來探索相關(guān)關(guān)系的一種數(shù)學(xué)分析方法,是多元統(tǒng)計分析方法,分析的結(jié)果為群集。對向量聚類后,我們對數(shù)據(jù)的處理難度也自然降低,所以從某種意義上說,聚類分析也起到了降維的作用。(-)不同之處主成分分析是研究如何通過少數(shù)幾個主成分來解釋多變量的方差一I?辦方差結(jié)構(gòu)的分析方法,也就是求出少數(shù)幾個主成分(變量),使它們盡可能多地保留原始變量的信息,11彼此不相關(guān)。它是一種數(shù)學(xué)變換方法,即把給定的一組變量通過線性變換,轉(zhuǎn)換為一組不和關(guān)的變量(網(wǎng)兩
6、和關(guān)系數(shù)為o,或樣本向量彼此相互垂直的隨機變量),在這種變換中,保持變量的總方差(方差Z和)不變,同時具有最大方茅,稱為第一主成分;具有次大方羌,稱為第二主成分。依次類推。若共有P個變量,實際應(yīng)用中一?般不是找P個主成分,而是找出m(m
7、就可試圖用最少個數(shù)的不可測的所謂公共因子的線性函數(shù)與特殊因子之和來描述原來觀測的每一分量。通過因子分析得來的新變量是對每個原始變量進行內(nèi)部剖析。因子分析不是對原始變量的重新組合,而是對原始變量進行分解,分解為公共因了和特殊因了兩部分。具體地說,就是要找出某個問題中可直接測量的具冇一定相關(guān)性的諸指標,如何受少數(shù)幾個在專業(yè)中有意義、又不可直接測量到、且相對獨立的因子支配的規(guī)律,從而可用各指標的測定來間接確定各因子的狀態(tài)。因子分析只能解釋部分變異,主成分分析能解釋所有變異。聚類分析算法是給定H1維空間R中的n個向量,把每個向量歸屈到k個聚類中的某一個,使得每一個向
8、量與其聚類中心的距離最小。聚類可以理解為:類內(nèi)的相關(guān)