資源描述:
《基于圖模型的高效聚類(lèi)算法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、學(xué)校代硬10004密級(jí):公開(kāi)如《猶9BEIJINGJIAOTONGUNIVERSITY碩±學(xué)位論文3崖I曲圓I基于?。崮P妥愿闩K鐵漸賊Hll^^作者姓名牛品寂學(xué)科專(zhuān)業(yè)計(jì)算機(jī)科學(xué)與技術(shù)指導(dǎo)教師徐保民副教授‘!:培養(yǎng)院系計(jì)龍與信息技術(shù)學(xué)蹤.&a.■欄.'?’'’-、A--.MM灌gr-J;r二,4^年s月韋IM主|碩壬學(xué)位論文基于圖模型的高效聚類(lèi)算法研究ResearchonCluskrinAlorithmBasedonGrahModelggp作者:牛品寂導(dǎo)師:徐保民北京交通大
2、學(xué)2016年3月學(xué)位論文版權(quán)使用授權(quán)書(shū)本學(xué)位論文作者完全了解北京交通大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定。特授權(quán)北京交通大學(xué)可W將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,提供閱覽服務(wù),并采用影印、縮印或掃描等復(fù)制手段保存、匯編W供查閱和借閱。同意學(xué)校向國(guó)家有關(guān)部口或機(jī)構(gòu)送交論文的復(fù)印件和磁盤(pán)。學(xué)??桑诪榇嬖陴^際合作關(guān)系的兄弟高校用戶(hù)提供文獻(xiàn)傳遞服務(wù)和交換服務(wù)。(保密的學(xué)位論文在解密后適用本授權(quán)說(shuō)明)學(xué)位論文作者簽名導(dǎo)師簽名:/簽字日期:年月日簽字日期:年月;日A>^,^^學(xué)校代碼:10004密級(jí):公開(kāi)北京交通大學(xué)碩±學(xué)位論文基于
3、圖模型的高效聚類(lèi)算法研究ResearchonClusterinAlorithmBasedonGrahModelggp13120416:牛品寂學(xué)號(hào)作者姓名:導(dǎo)師姓名:徐保民職稱(chēng):副教授:學(xué)位類(lèi)別:工學(xué)學(xué)位級(jí)別碩±學(xué)科專(zhuān)業(yè):計(jì)算機(jī)科學(xué)與技術(shù)研究方向:數(shù)據(jù)挖掘北京交通大學(xué)2016年3月i致謝一段落,在畢業(yè)論文即將完時(shí)間飛逝,轉(zhuǎn)眼間H年的研究生學(xué)習(xí)生涯即將告,由衷的對(duì)曾經(jīng)幫助過(guò)我的人表示感謝成之際。、,本文是在徐老師得悉屯教導(dǎo)下完成的,首先,我要感謝我的導(dǎo)師徐保民教授,,,徐老師認(rèn)真負(fù)責(zé)自研究生入學(xué)W來(lái),我有幸?guī)煆男毂C窭蠋?/p>
4、在學(xué)術(shù)上對(duì)待一,絲不茍,,給予我很多指導(dǎo)和鼓勵(lì)問(wèn)題,學(xué)術(shù)態(tài)度嚴(yán)謹(jǐn)學(xué)識(shí)淵博在徐老師的悉也指導(dǎo)下,我不僅獲得了豐富的專(zhuān)化知識(shí),更多的是掌握了正確的學(xué)習(xí)方法、、感謝H年來(lái)徐嚴(yán)謹(jǐn)?shù)墓ぷ鲬B(tài)度,使我終生受益,在此衷屯、腳踏實(shí)地的做人道理保民老師對(duì)我的關(guān)也和指導(dǎo)。一2班所有同學(xué)們我還要感謝這H年同陪伴我走過(guò)的計(jì)科,謝謝你們?cè)趯W(xué)習(xí)一一和生活中給予我的幫助,讓我收獲了份難得的友誼,這也將成為我生中最寶,我們都從不同的地,我要感謝曲曉雅貴的財(cái)富。特別的、秦艷菲、宋曉莉同學(xué),謝謝你們?cè)谏钌辖o予我的幫助方來(lái)的北京,來(lái)到交大,共同學(xué)習(xí)和生活。感謝戴昕同學(xué)王年的同窗之誼,謝謝你在學(xué)術(shù)
5、和論文撰寫(xiě)工作中給予我的啟發(fā)和幫助。一一、直是我求學(xué)直支持,你們最后,我要感謝、鼓勵(lì)、關(guān)屯、理解我的家人一一路上奮斗的動(dòng)為和依靠直追求自己的夢(mèng)想,我定會(huì)堅(jiān)持。是你們的信任讓我夢(mèng)想,不辜負(fù)你們的期望。北京交通大學(xué)碩±學(xué)位論文摘要摘要近年來(lái),隨著社會(huì)網(wǎng)絡(luò)、通信網(wǎng)絡(luò)、生物網(wǎng)絡(luò)等在各領(lǐng)域應(yīng)用的快速發(fā)展,其產(chǎn)生的圖模型數(shù)據(jù)更是呈現(xiàn)出快速增長(zhǎng)的態(tài)勢(shì)一。圖作為種數(shù)據(jù)結(jié)構(gòu)具有本身一其特有的表示方法和信息,個(gè)圖模型可能包含幾百到幾百萬(wàn)的頂點(diǎn),而這些頂點(diǎn)及其連接的邊構(gòu)成的關(guān)聯(lián)信息在不同領(lǐng)域中都具有不同的意義,隨著數(shù)據(jù)規(guī)模的不斷增長(zhǎng),如何有效的對(duì)這些信息進(jìn)行綜合分析并從
6、中獲取有用的信息進(jìn)行應(yīng)一用,是非常必要的,也是本文研究的主要的方向。聚類(lèi)分析作為機(jī)器學(xué)習(xí)的個(gè)重要工具目前己經(jīng)被廣泛應(yīng)用于文本挖掘、生物信息學(xué)、模式識(shí)別等領(lǐng)域的科學(xué)一研巧,隨著圖模型數(shù)據(jù)的廣泛應(yīng)用類(lèi)較為重要的聚類(lèi)分析方,圖聚類(lèi)也成為了一法,圖聚類(lèi)是圖數(shù)據(jù)分析的有效技術(shù)之。在構(gòu)造節(jié)點(diǎn)的相似矩陣時(shí)經(jīng)常采用距離作為評(píng)價(jià)標(biāo)準(zhǔn),而節(jié)點(diǎn)間存在多條等長(zhǎng)路徑及k短路徑,這些路徑間的關(guān)系都會(huì)對(duì)節(jié)點(diǎn)間相似性產(chǎn)生影響,因此綜合考慮節(jié)點(diǎn)間的距離關(guān)系有助于更好的衡量節(jié)點(diǎn)間的相似性一。針對(duì)這問(wèn)題,本文提出一個(gè)基于前k短路徑的圖聚類(lèi)算法(DRGC),該算法參照譜聚類(lèi)算法的思想,使用前k短路
7、徑模型構(gòu)造相似矩陣,利用多層自動(dòng)編碼器代替譜聚類(lèi)算法中的特征分解實(shí)現(xiàn)對(duì)數(shù)據(jù)的重構(gòu),并且可W大大減少特征分解所用時(shí)間,最后利用非參數(shù)貝葉斯模型進(jìn)行聚類(lèi),因狄利克雷過(guò)程具有很好的聚類(lèi)性質(zhì)并且可W實(shí)現(xiàn)對(duì)數(shù)據(jù)的自動(dòng)劃分,因此該算法可W在不預(yù)先指定聚類(lèi)數(shù)目的情況下得到數(shù)據(jù)集的正確合理劃分。一一為了克服單聚類(lèi)算法對(duì)數(shù)據(jù)集敏感的問(wèn)題,本文提出了個(gè)基于多數(shù)投票的聚類(lèi)集成算法,該算法利用前k