資源描述:
《基于dbscan的文本聚類算法研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、校代^巧財巧義學(xué);^—JIANGXIUNIVERSITYOFFINANCEANDECONOMICS中圖分類號UDC碩+學(xué)位論文MASTERDISSERTATION論古顯目基于DDSCAN的文本聚類算法研究(中文)論奇邸日民ese過rchonTextClusteringAlgorithmBasedon【英文)DBSCAN劉宏超煉輝副教授作者導(dǎo)師碩壬軟件與通信工程學(xué)憐控兼里位申請學(xué)位堂科專#軟件工程研究方向數(shù)據(jù)挖據(jù)二〇—六年六月獨(dú)
2、創(chuàng)性聲明本人聲明所呈交的論文是我個人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果.盡巧巧知,除了文中特別加k乂標(biāo)注和致巧的地方外,論文中不包含其他人己祭發(fā)表或巧寫的研究成果,化不包含為獲得江西財經(jīng)大學(xué)或其他教育機(jī)構(gòu)巧學(xué)位或證書所一使用過的材料.與我同工作的同志對本研究所做的任何巧獻(xiàn)新己在論文中作了明巧的說明并表示了?;荨#崳姡桑崳姾灻掌谌绶浚崳?;的關(guān)子論文使用授權(quán)的說明本人完全了#注西財經(jīng)大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定:學(xué)棱有權(quán)保留送交論文的義巧件,義許論文坡查巧和借,巧^閑1k乂采用影巧、;學(xué)??蓙V公布論文
3、的全部或部分巧容,可巧巧或其他義制手致保存論文?(保密的論文在解密后遵守此規(guī)定)簽名:巧簽名;日期;X若巧畔崎)目錄1緒論11.1研巧背景與意義1.21國內(nèi)外研究現(xiàn)狀21.3研究內(nèi)容和目的4.13.1研究內(nèi)容41.32研究0的.5.41論文組織結(jié)構(gòu)和內(nèi)容52文本挖掘的相關(guān)基礎(chǔ)概念72」文本挖掘72.2文本預(yù)處理72.2.]分詞技術(shù)72.2.2去停用詞82.3文本特征選擇方法92.4文本表示方法212.5相似度量方法1426.本章小結(jié)17
4、3常用的聚類方法183.1基于劃分的聚類方法183.2基于分層的聚類方法193.3基于密度的聚類方法193.4基于網(wǎng)格的聚類方法203520.基于模型的聚類方法36.本章小結(jié)214基于輸入?yún)?shù)確定的DBSCAN的文本聚類算法224.1問題描述2242DBSCAN22.算法介紹4-.3DDBSCAN算法介紹244.3.1特征空間選?。玻矗崳姡墸矗常泊_定掃描半徑R2643328..確定聚類最少對象數(shù)M4.4>.3算法流程^及細(xì)節(jié)2814.4實(shí)驗(yàn)過程
5、與結(jié)果分析304130.4.實(shí)驗(yàn)設(shè)置4.3].42評判標(biāo)準(zhǔn)432.4.3實(shí)驗(yàn)結(jié)果分析435.5本章小結(jié)5基于K-均值策略優(yōu)化的DBSCAN的文本聚類算法365.1問題描述365-36.2K均值算法介紹5S-DBSCAN法介紹37.3K算-、5.3.371確定K均值的初始中屯5.3.2確定對象掃描半徑R39451.3.3DBSCAN類簇合并方法425.3.4算法流程及細(xì)節(jié)455.4實(shí)驗(yàn)過程與結(jié)果分析5.45.41實(shí)驗(yàn)設(shè)置45.4.2評判標(biāo)準(zhǔn)545
6、5.43.實(shí)驗(yàn)結(jié)果分析485.5本章小結(jié)6總結(jié)與展望49496.1總結(jié)6250.展望5參考文獻(xiàn)1致謝55ContentsroducI1Inttiona.rchrnfi111民ese區(qū)ackgoundandSigicance1.2民esearchProgressinDomesticandOverseas21.3民esearchCon化nPurs4tsandpoe1.3.1ResearchContents413.2民esearchPurpos
7、e51.4OutlineoftheDiss州ai5ton2…………Textminingrelatedbasicconcets7p2.]Textmining72Ti7.2extPreprocessng2.2.]ChineseWordSegmentation72.2.2民emoveS化pWords82.3TextFeatureSelectionMethods922.4Text艮epresentation1Mea2.5MethodofS
8、imilaritysure142.6Summary17uMe……3CommonlUsedClst