資源描述:
《基于密度的改進型層次聚類算法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、分類號:TP391密級:公開專業(yè)學位研究生學位論文論文題目(中文)基于密度的改進型層次聚類算法研究ResearchonImprovedHierarchical論文題目(外文)ClusteringAlgorithmBasedonDensity研究生姓名李彩云學位類別工程碩士專業(yè)學位領(lǐng)域電子與通信工程學位級別碩士校內(nèi)導(dǎo)師姓名、職稱萬毅教授校外導(dǎo)師單位、姓名論文工作起止年月2014年9月至2016年4月論文提交日期2016年4月論文答辯日期2016年5月學位授予日期2016年6月校址:甘肅省蘭州市原創(chuàng)性聲明本人鄭重聲明:本人所呈交
2、的學位論文,是在導(dǎo)師的指導(dǎo)下獨立進行研究所取得的成果。學位論文中凡引用他人已經(jīng)發(fā)表或未發(fā)表的成果、數(shù)據(jù)、觀點等,均已明確注明出處。除文中已經(jīng)注明引用的內(nèi)容外,不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的科研成果。對本文的研究成果做出重要貢獻的個人和集體,均已在文中以明確方式標明。本聲明的法律責任由本人承擔。論文作者簽名:日期:關(guān)于學位論文使用授權(quán)的聲明本人在導(dǎo)師指導(dǎo)下所完成的論文及相關(guān)的職務(wù)作品,知識產(chǎn)權(quán)歸屬蘭州大學。本人完全了解蘭州大學有關(guān)保存、使用學位論文的規(guī)定,同意學校保存或向國家有關(guān)部門或機構(gòu)送交論文的紙質(zhì)版和電子版,
3、允許論文被查閱和借閱;本人授權(quán)蘭州大學可以將本學位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索,可以采用任何復(fù)制手段保存和匯編本學位論文。本人離校后發(fā)表、使用學位論文或與該論文直接相關(guān)的學術(shù)論文或成果時,第一署名單位仍然為蘭州大學。本學位論文研究內(nèi)容:□可以公開□不宜公開,已在學位辦公室辦理保密申請,解密后適用本授權(quán)書。(請在以上選項內(nèi)選擇其中一項打“√”)論文作者簽名:導(dǎo)師簽名:日期:日期:基于密度的改進型層次聚類算法研究中文摘要數(shù)據(jù)挖掘是幫助我們從海量數(shù)據(jù)中發(fā)現(xiàn)有價值的信息的一種重要工具,而聚類分析又是數(shù)據(jù)挖掘中的一個重要
4、的研究方向。聚類分析在生物學、統(tǒng)計學、機器學習、商業(yè)決策等領(lǐng)域都得到了成功應(yīng)用。目前的聚類算法都比較有針對性,所以對于更高效、更準確、更全面的聚類算法的研究仍然是一大熱點。層次聚類是聚類分析的一個重要分支,本文重點分析研究了層次聚類算法,并對一些代表算法的聚類性能進行了分析比較。CURE算法是一種典型的層次聚類算法,該算法對收縮因子這一參數(shù)很敏感,而且噪聲和孤立點很難界定。針對CURE算法存在的不足,本文提出了一種改進的基于密度分層的層次聚類算法。改進算法將數(shù)據(jù)集中的點按照密度大小排序,將密度最小的約10%的點作為偏離點(包
5、括噪聲和孤立點)排除掉。將剩余的點按照密度大小分層,在密度最大和最小兩層上分別進行凝聚層次聚類,然后在分層聚類的基礎(chǔ)上對所有剩余點進行凝聚層次聚類。最后將偏離點劃分到與之最近的已聚好的類中。改進算法對噪聲和孤立點不敏感,不需要收縮因子這一參數(shù),對多種非球形簇有很好的聚類效果。通過對比實驗證明,改進算法的聚類效果明顯優(yōu)于CURE算法,算法效率也在一定程度上優(yōu)于CURE算法。另外,本文還詳細分析了2014年AlexRodriguez在science上發(fā)表的文章ClusteringbyFastSearchandFindofDens
6、ityPeaks中提出的一種新穎的基于密度的CBDP算法。針對CBDP算法只能處理類內(nèi)數(shù)據(jù)分布不均勻、不同類的數(shù)據(jù)密度差距不大的數(shù)據(jù)集的缺點,提出了一種改進的層次聚類算法。改進算法通過計算數(shù)據(jù)的密度和距離,排除了密度很小而距離很大的噪聲和孤立點,使改進算法對噪聲和孤立點不敏感。通過繪制數(shù)據(jù)的密度和距離乘積分布圖,即i—ρi?δi分布圖來確定密度峰值點。然后以密度峰值點為中心,計算最小類間距離,不斷進行類的合并,直至達到聚類數(shù)目。在二維和多維數(shù)據(jù)集上的實驗證明了改進算法的聚類結(jié)果明顯優(yōu)于CBDP算法,而且聚類效果更穩(wěn)定。關(guān)鍵詞
7、:聚類分析,層次聚類,CURE算法,CBDP算法IResearchonImprovedHierarchicalClusteringAlgorithmBasedonDensityAbstractDataminingisanimportanttooltohelpusfindvaluableinformationfromthemassivedata,andclusteranalysisisanimportantresearchdirectionofdatamining.Clusteranalysishasbeensuccessfu
8、llyappliedinthefieldsofbiology,statistics,machinelearningandbusinessdecisionetc.Thecurrentclusteringalgorithmsaretargetedandtheresearchonthemoree