資源描述:
《主成分與因子分析》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、聚類分析一、分類俗語說,物以類聚、人以群分。當(dāng)有一個分類指標(biāo)時,分類比較容易。但是當(dāng)有多個指標(biāo),要進(jìn)行分類就不是很容易了。比如,要想把中國的縣分成若干類,可以按照自然條件來分:考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo)。二、聚類分析概述由于不同的指標(biāo)項對重要程度或依賴關(guān)系是相互不同的,所以也不能用平均的方法,因為這樣會忽視相對重要程度的問題。所以需要進(jìn)行多元分類,即聚類分析。最早的聚類分析是由考古學(xué)家在對考古分類中研究中發(fā)展起來的,同時又應(yīng)用于昆蟲的分類中,此后又廣泛地應(yīng)用在天氣、生物等方面。對于一個數(shù)據(jù),人們既可以對變量(指
2、標(biāo))進(jìn)行分類(相當(dāng)于對數(shù)據(jù)中的列分類),也可以對觀測值(事件,樣品)來分類(相當(dāng)于對數(shù)據(jù)中的行分類)。對變量的聚類稱為R型聚類,而對觀測值聚類稱為Q型聚類。這兩種聚類在數(shù)學(xué)上是對稱的,沒有什么不同。三、聚類中選擇變量的要求1.和聚類分析的目標(biāo)密切相關(guān)2.反映了要分類對象的特征3.變量之間不應(yīng)該高度相關(guān)。四、如何聚類?聚類分析就是要找出具有相近程度的點或類聚為一類;如何衡量這個“相近程度”?就是要根據(jù)“距離”來確定。這里的距離含義很廣,凡是滿足4個條件(后面講)的都是距離,如歐氏距離、馬氏距離…,相似系數(shù)也可看作為距離。第一節(jié)距離和相似系數(shù)一、距離什么是距離?首先我們看樣
3、本數(shù)據(jù):一般滿足以下四個條件時,就稱為聚類:1.常用距離——明氏距離Minkowski距離:當(dāng)q=1時:當(dāng)q=2時:當(dāng)q=∞時:2.明氏距離的缺點距離的大小與各指標(biāo)的觀測單位有關(guān),具有一定的人為性。例如:對體重和身高進(jìn)行測量,采用不同單位,其距離測量的結(jié)果不同。以歐氏距離為例。當(dāng)長度=cm時:當(dāng)長度=mm時:改進(jìn)的方法:對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,然后再計算距離。另一個缺點:它沒有考慮到指標(biāo)之間的相關(guān)性。改進(jìn)的方法是:采用馬氏距離馬氏距離是1936年由印度數(shù)學(xué)家:馬哈拉比斯由協(xié)方差矩陣計算構(gòu)造的距離。一、相似系數(shù)夾角余弦—cosine盡管圖中AB和CD長度不一樣,但形狀相似。當(dāng)長
4、度不是主要矛盾時,就可利用夾角余弦這樣的相似系數(shù)。相關(guān)系數(shù)也可用相關(guān)系數(shù)來刻畫樣品之間的相似關(guān)系。把兩兩樣品的相關(guān)系數(shù)都計算出來,可形成樣品相關(guān)系數(shù)矩陣。一、關(guān)聯(lián)測度主要用來度量聚類變量為分類變量的研究對象的相似性。簡單匹配系數(shù):是測度二分類變量的,是度量兩個案例在所有的聚類變量上答案相同的情況出現(xiàn)的頻率。雅科比系數(shù):是在簡單匹配系數(shù)基礎(chǔ)上進(jìn)行的改進(jìn),也是度量二分類變量的。第二節(jié)系統(tǒng)聚類法一、系統(tǒng)聚類法的步驟可選擇適當(dāng)?shù)木嚯x,計算距離把每個樣品看成一類,構(gòu)造n個類合并最近的兩類為一新類計算新類與當(dāng)前各類的距離判斷畫聚類圖根據(jù)實際情況,確定類和類的個數(shù)僅有一個類不是僅有一
5、個類采用系統(tǒng)聚類法一、系統(tǒng)聚類法1.最短距離法——NearestNeighbor2.最長距離法——FurthestNeighbor3.重心法——CentroidClustering4.類平均法——Between-groupsLinkage5.離差平方和法——Word’sMethod它的思想來源于方差分析此外,還有中間距離法、類內(nèi)平均法等。第三節(jié)SPSS中的聚類分析與過程例1飲料數(shù)據(jù)(drink.sav)16種飲料的熱量、咖啡因、鈉及價格四種變量一、SPSS中的聚類分析SPSS中的聚類功能常用的有兩種:快速聚類(迭代過程):K-MeansCluster分層聚類:Hiera
6、rchical1.K-MeansCluster快速聚類(1)K-MeansCluster原理首先,選擇n個數(shù)值型變量參與聚類分析,最后要求的聚類數(shù)為k個;其次,由系統(tǒng)選擇k個(聚類的類數(shù))觀測量(也可由用戶指定)作為聚類的種子。第三,按照距離這些類中心的距離最小的原則把所有觀測量(樣品)分派到各類重心所在的類中去。第四,這樣每類中可能由若干個樣品,計算每個類中各個變量的均值,以此作為第二次迭代的中心;第五,然后根據(jù)這個中心重復(fù)第三、第四步,直到中心的迭代標(biāo)準(zhǔn)達(dá)到要求時,聚類過程結(jié)束。(2)K-MeansCluster聚類過程由Analyze——Classify——K-M
7、eansCluster將各變量放入Variable;輸入最后聚類的個數(shù);1.HierarchicalCluster聚類分層聚類由兩種方法:分解法和凝聚法。分層聚類的功能:即可進(jìn)行樣品的聚類,也可進(jìn)行變量的聚類。分層聚類的原理:即我們前面介紹過的系統(tǒng)聚類方法的原理和過程。分層聚類的中要進(jìn)行以下的選擇:數(shù)據(jù)的標(biāo)準(zhǔn)化測度方法的選擇:距離方法的選擇或相似性、關(guān)聯(lián)程度的選擇。聚類方法的選擇:即以什么方法聚類,SPSS中提供了7中方法可進(jìn)行選擇。輸出圖形的選擇:樹形圖或冰柱圖。歐氏平方距離、類平均法聚類快速聚類法聚類歐氏平方距離、最短距離法聚類歐氏平