資源描述:
《基于層次的混合聚類算法研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、分類號:密級:公開學(xué)號:6120100182單位代碼:10407碩士學(xué)位論文論文題目:基于層次的混合聚類算法研究研究方向:數(shù)據(jù)挖掘?qū)I(yè)名稱:計(jì)算機(jī)應(yīng)用技術(shù)研究生姓名:孫文杰導(dǎo)師姓名、職稱:喻金平教授2013年6月4日江西·贛州摘要隨著科學(xué)技術(shù)的快速進(jìn)步,人們已經(jīng)被大量數(shù)據(jù)淹沒,已經(jīng)越來越?jīng)]有時間看數(shù)據(jù)了,造成人們無法快速找到所需要的信息的困境。在面對大量數(shù)據(jù)時,必須找到有效的方法,可以自動的進(jìn)行數(shù)據(jù)分類分析、數(shù)據(jù)匯總以及標(biāo)記異常數(shù)據(jù)。數(shù)據(jù)挖掘就是在解決上述問題過程中而產(chǎn)生的技術(shù)。聚類技術(shù)作為數(shù)據(jù)挖掘的一個主要技術(shù)方法,是將相似的數(shù)據(jù)劃分為簇,提供給人們針對自己的需求甄選數(shù)據(jù)的方法。
2、目前,研究人員已經(jīng)設(shè)計(jì)出了眾多的聚類算法,其中基于層次的聚類算法一直是在應(yīng)用領(lǐng)域中最有發(fā)展前景的算法,受到了廣大學(xué)者的密切關(guān)注。首先,本文簡單介紹了一下數(shù)據(jù)挖掘技術(shù),之后針對聚類分析方法進(jìn)行了深入的研究分析,總結(jié)了聚類算法應(yīng)具備的特征,詳細(xì)介紹了經(jīng)典聚類算法的主要思想、代表算法并對比了各類算法的優(yōu)勢和缺陷。其次,針對Chameleon算法需要人為給出聚類的相關(guān)參數(shù)以及合并簇操作時不可逆的缺點(diǎn),提出一種基于模塊度的可回溯聚類算法-BM-Chameleon。該算法會自動找到最適合本數(shù)據(jù)集的聚類參數(shù),同時實(shí)現(xiàn)了回溯操作,保證得到最好的聚類效果。利用模擬數(shù)據(jù)對Chameleon算法和BM-
3、Chameleon算法進(jìn)行實(shí)驗(yàn)分析,結(jié)果顯示BM-Chameleon算法可很好的改善聚類結(jié)果的質(zhì)量。最后,為了解決引入模塊度和回溯機(jī)制后Chameleon算法運(yùn)行時間增加的問題,設(shè)計(jì)了一種混合聚類算法-KBMC算法,將BM-Chameleon算法與傳統(tǒng)的基于劃分的k-means算法相結(jié)合,保證了聚類結(jié)果的精確度的同時也改善了算法的時間復(fù)雜度。使用模擬數(shù)據(jù)和實(shí)際數(shù)據(jù)對原算法和改進(jìn)算法進(jìn)行實(shí)驗(yàn)分析,結(jié)果顯示KBMC算法具有更高的聚類準(zhǔn)確度和更為理想的時間復(fù)雜度。關(guān)鍵詞:聚類分析;層次聚類;模塊度;回溯機(jī)制;KBMC算法IAbstractWiththedevelopmentofscien
4、ceandtechnology,everyonehasbeendrownedbyalargeamountofdata,andhasnotimetolookatthedatawhichhasmadepeoplenottofindthedesiredinformationquickly.Thefaceofhugeamountsofdata,wemustfindeffectivemethods,whichcanclassifyandanalysisdata,gatherdataandflagexceptionsdata.DataMiningisputforwardwhenwesolves
5、uchproblemoftechnology.Clusteringanalysisisamajortechnologymeansofthefieldofdatamining,whichdividesthesimilartargetintoclusters,andhelpspeoplesearchandfindusefulinformation.Atpresent,researchershaveputforwardlotsofclusteringalgorithms,hierarchicalclusteringalgorithmsisoneofimportantmeanswhicha
6、reappliedwidely,andhasbeenpaidmuchattention.First,thisarticleintroducesdataminingtechnologybriefly.Theclusteringtechnologiesareconductedin-depthresearchandanalysis.Clusteringalgorithmsshouldhavecharacteristics.Andprincipleandkeytechniquesofthesealgorithmsareintroducedsystematically,thentocompa
7、retheadvantagesanddisadvantagesofthevariousalgorithms.Then,weproposeoneclusteringalgorithmwhichbasedmodularityandbacktracking-BM-ChameleonbecausetheChameleonalgorithmrequireshumantogivetheclusteringrelatedparametersaswellasirreversibili