聚類分析例題

聚類分析例題

ID:44652763

大小:297.63 KB

頁數(shù):9頁

時(shí)間:2019-10-24

聚類分析例題_第1頁
聚類分析例題_第2頁
聚類分析例題_第3頁
聚類分析例題_第4頁
聚類分析例題_第5頁
資源描述:

《聚類分析例題》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、5.2釀酒葡萄的等級(jí)劃分5.2.1葡萄酒的質(zhì)量分類由問題1中我們得知,第二組評(píng)酒員的的評(píng)價(jià)結(jié)果更為可信,所以我們通過第二組評(píng)酒員對(duì)于酒的評(píng)分做出處理。我們通過excel計(jì)算出每位評(píng)酒員對(duì)何:支酒的總分,然后計(jì)算出每支酒的10個(gè)分?jǐn)?shù)的平均值,作為總的對(duì)于這支酒的等級(jí)評(píng)價(jià)。通過國際釀酒工會(huì)對(duì)于葡萄酒的分級(jí),以百分制標(biāo)準(zhǔn)評(píng)級(jí),總共評(píng)出了六個(gè)級(jí)別(見表5)。表5:葡萄酒等級(jí)表等級(jí)特優(yōu)優(yōu)優(yōu)良良及格不及格分?jǐn)?shù)95-10090-9480-8970-7960-690-59在問題2的計(jì)算屮,我們求出了各支酒的分?jǐn)?shù),考慮到所有分?jǐn)?shù)在區(qū)間[61.6,81.5]波動(dòng),以原等級(jí)表分級(jí),結(jié)果將會(huì)很模糊,不能分

2、得比較清晰。為此我們需要進(jìn)一步細(xì)化等級(jí)。為此我們重新細(xì)化出5個(gè)等級(jí),為了方便計(jì)算,我們還對(duì)等級(jí)進(jìn)行降序數(shù)字等級(jí)(見表6)。表6:細(xì)化后的葡萄酒等級(jí)表等級(jí)偏優(yōu)偏優(yōu)良良屮及格分?jǐn)?shù)80-8475-7970-7465-6960-64數(shù)字等級(jí)54321通過對(duì)數(shù)據(jù)的預(yù)處理,我們得到了一個(gè)新的關(guān)于葡萄酒的分級(jí)表格(見表7):表7:各支葡萄酒的等級(jí)編號(hào)紅灑原等級(jí)細(xì)化等級(jí)白酒原等級(jí)細(xì)化等級(jí)1號(hào)68.12277.9342號(hào)743375.8343號(hào)74.63475.6344號(hào)71.23376.9345號(hào)72.13381.5456號(hào)66.32275.5347號(hào)65.32274.2338號(hào)662272.33

3、39號(hào)78.23480.44510號(hào)68.82279.83411號(hào)61.62171.43312號(hào)68.32272.43313號(hào)6&82273.93314號(hào)72.63377.13415號(hào)65.7227&43416號(hào)69.92367.32217號(hào)74.53380.34518號(hào)65.42276.73419號(hào)72.63376.43420號(hào)75.83476.63421號(hào)72.23279.23422號(hào)71.63379.43423號(hào)77.13477.43424號(hào)71.53376.13425號(hào)68.22279.53426號(hào)723374.33327號(hào)71.533773428號(hào)79.634經(jīng)過整理,我

4、們初步得到了對(duì)于葡萄酒的質(zhì)量的分類的表格??紤]到葡萄酒的質(zhì)量與釀酒葡萄間有比較Z間的關(guān)系,我們將保留葡萄酒質(zhì)雖對(duì)于釀酒葡萄的影響,先單純從釀酒葡萄的理化指標(biāo)對(duì)釀酒葡萄進(jìn)行分類,然后在通過葡萄酒質(zhì)量對(duì)釀酒葡萄質(zhì)量的優(yōu)劣進(jìn)一步進(jìn)行劃分。5.2.2建立模型在通過釀酒葡萄的理化指標(biāo)對(duì)釀酒葡萄分類的過程,我們用到了聚類分析方法屮的ward最小方差法,乂叫做離差平方和法。聚類分析是研究分類問題的一種多元統(tǒng)計(jì)方法。所謂類,通俗地說,就是指相似元素的集合。為了將樣品進(jìn)行分類,就需要研究樣品之間關(guān)系。這里的最小方差法的基本思想就是將一個(gè)樣品看作P維空間的一個(gè)點(diǎn),并在空間的定義距離,距離較近的點(diǎn)歸為一

5、類;距離較遠(yuǎn)的點(diǎn)歸為不同的類。面對(duì)現(xiàn)在的問題,我們不知道元素的分類,連要分成幾類都不知道?,F(xiàn)在我們將用SAS系統(tǒng)里面的stepdisc和cluster過程完成判別分析和聚類分析,最終確定元素對(duì)象的分類問題。建立數(shù)據(jù)陣,具體數(shù)學(xué)表示為:兒...X=(5.2.1)YV_…nm.式中,行向量X產(chǎn)偽,兀沏)表示第i個(gè)樣品;列向量X,=(兀打,…,屯)門,表示第j項(xiàng)指標(biāo)。(i=l,2,???,n;j=l,2,—m)接下來我們將要對(duì)數(shù)據(jù)進(jìn)行變化,以便于我們比較和消除綱量。在此我們用了使用最廣范的方法,ward最小方差法。其中用到了類間距離來進(jìn)行比較,定義為:Dkl=11X,-X,II2/(1/

6、兔+1/?)(5.2.2)Ward方法并類時(shí)總是使得并類導(dǎo)致的類內(nèi)離差平方和增量最小。系統(tǒng)聚類數(shù)的確定。在聚類分析中,系統(tǒng)聚類最終得到的一個(gè)聚類樹,如何確定類的個(gè)數(shù),這是一個(gè)十分困難但又必須解決的問題;因?yàn)榉诸惐旧砭蜎]有一定標(biāo)準(zhǔn),人們可以從不同的角度給出不同的分類。在實(shí)際應(yīng)用屮常使用下面幾種方法確定類的個(gè)數(shù)。由適當(dāng)?shù)拈y值確定,此處閥值為q,。根據(jù)樣木的散點(diǎn)圖直觀的確定。當(dāng)樣木所含指標(biāo)只有2個(gè)或3個(gè)時(shí),可運(yùn)用散點(diǎn)圖直觀觀察。如果指標(biāo)超過3個(gè)時(shí),可用主成份法先綜合指標(biāo)。根據(jù)統(tǒng)計(jì)量確定分類個(gè)數(shù)。在SAS中,捉供了一些來口方差分析思想的統(tǒng)計(jì)量近似檢驗(yàn)類個(gè)數(shù)如何選擇更合適。1)F統(tǒng)計(jì)量:F=

7、l—S;/S;=S;/S;(5.2.3)其中,S;為分類數(shù)為k個(gè)數(shù)時(shí)的總類內(nèi)離差平方和,S;為所有樣品或變量的總離差平方和。F越人,說明類內(nèi)的離差平方和在總離差平方和中比例較小,也就是分為k個(gè)類的效果越好。顯然分類越多,每個(gè)類離差越小,疋越大,所以我們只能取k使得疋足夠人,但k本身比較小,而且F不再人幅度增加。2)半偏R2統(tǒng)計(jì)量:在把類Q和類G合并為卜一水平的類C,”時(shí),定義半偏相關(guān):半偏R2=BkI/T(5.2.4)具中陽二S,”-⑸+①)為合并類引起的類內(nèi)離差平方

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。