資源描述:
《聚類分析例題》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、5.2釀酒葡萄的等級(jí)劃分5.2.1葡萄酒的質(zhì)量分類由問題1中我們得知,第二組評(píng)酒員的的評(píng)價(jià)結(jié)果更為可信,所以我們通過第二組評(píng)酒員對(duì)于酒的評(píng)分做出處理。我們通過excel計(jì)算出每位評(píng)酒員對(duì)何:支酒的總分,然后計(jì)算出每支酒的10個(gè)分?jǐn)?shù)的平均值,作為總的對(duì)于這支酒的等級(jí)評(píng)價(jià)。通過國際釀酒工會(huì)對(duì)于葡萄酒的分級(jí),以百分制標(biāo)準(zhǔn)評(píng)級(jí),總共評(píng)出了六個(gè)級(jí)別(見表5)。表5:葡萄酒等級(jí)表等級(jí)特優(yōu)優(yōu)優(yōu)良良及格不及格分?jǐn)?shù)95-10090-9480-8970-7960-690-59在問題2的計(jì)算屮,我們求出了各支酒的分?jǐn)?shù),考慮到所有分?jǐn)?shù)在區(qū)間[61.6,81.5]波動(dòng),以原等級(jí)表分級(jí),結(jié)果將會(huì)很模糊,不能分
2、得比較清晰。為此我們需要進(jìn)一步細(xì)化等級(jí)。為此我們重新細(xì)化出5個(gè)等級(jí),為了方便計(jì)算,我們還對(duì)等級(jí)進(jìn)行降序數(shù)字等級(jí)(見表6)。表6:細(xì)化后的葡萄酒等級(jí)表等級(jí)偏優(yōu)偏優(yōu)良良屮及格分?jǐn)?shù)80-8475-7970-7465-6960-64數(shù)字等級(jí)54321通過對(duì)數(shù)據(jù)的預(yù)處理,我們得到了一個(gè)新的關(guān)于葡萄酒的分級(jí)表格(見表7):表7:各支葡萄酒的等級(jí)編號(hào)紅灑原等級(jí)細(xì)化等級(jí)白酒原等級(jí)細(xì)化等級(jí)1號(hào)68.12277.9342號(hào)743375.8343號(hào)74.63475.6344號(hào)71.23376.9345號(hào)72.13381.5456號(hào)66.32275.5347號(hào)65.32274.2338號(hào)662272.33
3、39號(hào)78.23480.44510號(hào)68.82279.83411號(hào)61.62171.43312號(hào)68.32272.43313號(hào)6&82273.93314號(hào)72.63377.13415號(hào)65.7227&43416號(hào)69.92367.32217號(hào)74.53380.34518號(hào)65.42276.73419號(hào)72.63376.43420號(hào)75.83476.63421號(hào)72.23279.23422號(hào)71.63379.43423號(hào)77.13477.43424號(hào)71.53376.13425號(hào)68.22279.53426號(hào)723374.33327號(hào)71.533773428號(hào)79.634經(jīng)過整理,我
4、們初步得到了對(duì)于葡萄酒的質(zhì)量的分類的表格??紤]到葡萄酒的質(zhì)量與釀酒葡萄間有比較Z間的關(guān)系,我們將保留葡萄酒質(zhì)雖對(duì)于釀酒葡萄的影響,先單純從釀酒葡萄的理化指標(biāo)對(duì)釀酒葡萄進(jìn)行分類,然后在通過葡萄酒質(zhì)量對(duì)釀酒葡萄質(zhì)量的優(yōu)劣進(jìn)一步進(jìn)行劃分。5.2.2建立模型在通過釀酒葡萄的理化指標(biāo)對(duì)釀酒葡萄分類的過程,我們用到了聚類分析方法屮的ward最小方差法,乂叫做離差平方和法。聚類分析是研究分類問題的一種多元統(tǒng)計(jì)方法。所謂類,通俗地說,就是指相似元素的集合。為了將樣品進(jìn)行分類,就需要研究樣品之間關(guān)系。這里的最小方差法的基本思想就是將一個(gè)樣品看作P維空間的一個(gè)點(diǎn),并在空間的定義距離,距離較近的點(diǎn)歸為一
5、類;距離較遠(yuǎn)的點(diǎn)歸為不同的類。面對(duì)現(xiàn)在的問題,我們不知道元素的分類,連要分成幾類都不知道?,F(xiàn)在我們將用SAS系統(tǒng)里面的stepdisc和cluster過程完成判別分析和聚類分析,最終確定元素對(duì)象的分類問題。建立數(shù)據(jù)陣,具體數(shù)學(xué)表示為:兒...X=(5.2.1)YV_…nm.式中,行向量X產(chǎn)偽,兀沏)表示第i個(gè)樣品;列向量X,=(兀打,…,屯)門,表示第j項(xiàng)指標(biāo)。(i=l,2,???,n;j=l,2,—m)接下來我們將要對(duì)數(shù)據(jù)進(jìn)行變化,以便于我們比較和消除綱量。在此我們用了使用最廣范的方法,ward最小方差法。其中用到了類間距離來進(jìn)行比較,定義為:Dkl=11X,-X,II2/(1/
6、兔+1/?)(5.2.2)Ward方法并類時(shí)總是使得并類導(dǎo)致的類內(nèi)離差平方和增量最小。系統(tǒng)聚類數(shù)的確定。在聚類分析中,系統(tǒng)聚類最終得到的一個(gè)聚類樹,如何確定類的個(gè)數(shù),這是一個(gè)十分困難但又必須解決的問題;因?yàn)榉诸惐旧砭蜎]有一定標(biāo)準(zhǔn),人們可以從不同的角度給出不同的分類。在實(shí)際應(yīng)用屮常使用下面幾種方法確定類的個(gè)數(shù)。由適當(dāng)?shù)拈y值確定,此處閥值為q,。根據(jù)樣木的散點(diǎn)圖直觀的確定。當(dāng)樣木所含指標(biāo)只有2個(gè)或3個(gè)時(shí),可運(yùn)用散點(diǎn)圖直觀觀察。如果指標(biāo)超過3個(gè)時(shí),可用主成份法先綜合指標(biāo)。根據(jù)統(tǒng)計(jì)量確定分類個(gè)數(shù)。在SAS中,捉供了一些來口方差分析思想的統(tǒng)計(jì)量近似檢驗(yàn)類個(gè)數(shù)如何選擇更合適。1)F統(tǒng)計(jì)量:F=
7、l—S;/S;=S;/S;(5.2.3)其中,S;為分類數(shù)為k個(gè)數(shù)時(shí)的總類內(nèi)離差平方和,S;為所有樣品或變量的總離差平方和。F越人,說明類內(nèi)的離差平方和在總離差平方和中比例較小,也就是分為k個(gè)類的效果越好。顯然分類越多,每個(gè)類離差越小,疋越大,所以我們只能取k使得疋足夠人,但k本身比較小,而且F不再人幅度增加。2)半偏R2統(tǒng)計(jì)量:在把類Q和類G合并為卜一水平的類C,”時(shí),定義半偏相關(guān):半偏R2=BkI/T(5.2.4)具中陽二S,”-⑸+①)為合并類引起的類內(nèi)離差平方