資源描述:
《一種基于密度和層次的聚類算法的研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、中文圖書分類號:TP391密級:公開UDC:004學(xué)校代碼:10005碩士專業(yè)學(xué)位論文PROFESSIONALMASTERDISSERTATION論文題目:一種基于密度和層次的聚類算法的研究論文作者:吳浩同專業(yè)類別/領(lǐng)域:計算機技術(shù)指導(dǎo)教師:王丹教授論文提交日期:2017年5月UDC:004學(xué)校代碼:10005中文圖書分類號:TP391學(xué)號:S201407122密級:公開北京工業(yè)大學(xué)碩士專業(yè)學(xué)位論文(全日制)題目:一種基于密度和層次的聚類算法的研究英文題目:RESEARCHONACLUSTERINGALGORITHMBASEDON
2、DENSITYANDHIERARCHY論文作者:吳浩同專業(yè)類別/領(lǐng)域:計算機技術(shù)研究方向:計算機軟件與理論申請學(xué)位:工程碩士專業(yè)學(xué)位指導(dǎo)教師:王丹教授所在單位:信息學(xué)部答辯日期:2017年5月授予學(xué)位單位:北京工業(yè)大學(xué)獨創(chuàng)性聲明本人聲明所呈交的論文是我個人在導(dǎo)師指導(dǎo)下進行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得北京工業(yè)大學(xué)或其它教育機構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示了謝
3、意。簽名:吳浩同日期:2017年5月17日關(guān)于論文使用授權(quán)的說明本人完全了解北京工業(yè)大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留送交論文的復(fù)印件,允許論文被查閱和借閱;學(xué)??梢怨颊撐牡娜炕虿糠謨?nèi)容,可以采用影印、縮印或其他復(fù)制手段保存論文。(保密的論文在解密后應(yīng)遵守此規(guī)定)簽名:吳浩同日期:2017年5月17日導(dǎo)師簽名:王丹日期:2017年5月17日摘要摘要聚類算法作為數(shù)據(jù)挖掘算法中常用的一類方法正受到越來越多的關(guān)注。其中基于密度峰值查找的快速聚類算法CFSFDP(Clusteringbyfastsearchandfin
4、dofdensitypeaks)算法是一種密度型的聚類算法,通過繪制并觀察決策圖獲取密度峰值,將密度峰值點作為聚類中心,再根據(jù)聚類中心進行聚類。CFSFDP算法速度快,容易理解并實現(xiàn),可以探測到不同形狀的數(shù)據(jù)。但是該算法也有兩點不足:(1)CFSFDP算法在聚類時由于人為指定截斷距離??的緣故,可能會產(chǎn)生多個密度峰值,違背了一個密度峰值對應(yīng)著一個類簇的聚類中心的算法本意,如果一個類簇出現(xiàn)多個密度峰值,在進行聚合時則會出現(xiàn)一定偏差。(2)聚類中心的選取依賴于算法中生成的決策圖,用戶通過觀察決策圖然后人為地挑選出聚類中心。這種方法不僅
5、會中斷整個算法流程,使得算法效率降低,同時也可能出現(xiàn)多選或漏選密度峰值的問題。為了應(yīng)對上述兩個問題,本文以CFSFDP算法為基礎(chǔ),提出了一種基于密度和層次的聚類算法。通過引入系統(tǒng)演化算法的聚合判別算法,讓改進后的CFSFDP算法先獲得初步聚類結(jié)果,然后利用判別算法對初步聚合結(jié)果以層次聚類的方式再進行二次聚合,將本該歸于同一類簇的對象聚合在一起。本文的主要工作如下:1、提出了一種新的基于密度和層次的聚類算法。算法主要分為兩個階段,第一階段首先用基于密度的CFSFDP算法對數(shù)據(jù)進行初步的聚類,在得到聚合結(jié)果之后,利用引入系統(tǒng)演化算法中
6、的判別算法對結(jié)果中的多個類簇進行聚合判別,通過計算類簇間邊緣區(qū)域的分離度和類簇聚合前后的離散度,從而判斷兩個類簇能否進行聚合,將應(yīng)該屬于同一類簇的多個小類簇進行聚合。2、提出了一種基于權(quán)值差計算的自動獲取CFSFDP算法中聚類中心的方法。通過計算數(shù)據(jù)集中每個點的權(quán)值并降序排序,然后計算排序后相鄰點的權(quán)值差,基于權(quán)值差,找到最后一次出現(xiàn)權(quán)值較大變化的臨界點,將權(quán)值比臨界點大的點設(shè)為聚類中心。同時為了防止數(shù)據(jù)集中密度不一對聚類中心選取造成的影響,本文設(shè)置了多個截斷距離,目的是為了盡可能獲取多個聚類中心,然后將距離較近的中心合并成一個。
7、3、引入了系統(tǒng)演化算法的聚合判別算法用于層次聚類中類簇的聚合判斷。為了提高聚合判別算法的計算效率,本文修改了原算法中對邊界區(qū)域和次邊界區(qū)域中點的選取方式,相比原方法減少了比較的次數(shù);通過增加一個最近點距離表,使得算法在求最小平均距離時,同樣可以減少一定的比較次數(shù)。為了解決原算法-I-北京工業(yè)大學(xué)工程碩士專業(yè)學(xué)位論文不能處理輕微重疊類簇的聚合問題,將計算類簇聚合前后誤差平方和的變化率作為補充方法,幫助原算法解決對輕微重疊類簇的聚合判斷問題。4、針對CFSFDP算法有時可能會將一個類簇分成兩個或多個的問題,本文利用改進后的聚合判別算法
8、,設(shè)計了兩個鏈表數(shù)組作為類簇的存儲結(jié)構(gòu),依托兩個鏈表數(shù)組,通過層次聚類的方式實現(xiàn)對改進后CFSFDP算法聚類結(jié)果的二次聚類。5、通過多組實驗證明本文提出的新的基于密度和層次的聚類算法相比原算法在準(zhǔn)確度上得到了一定的提升,同時針對于多種形狀和不同密度