資源描述:
《基于語義相似度群智能文本聚類方法的研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、分類號:TP391密級:公開學號:092070042工學碩士學位論文基于語義相似度的群智能文本聚類方法研究學生姓名陶紅指導教師高尚教授江蘇科技大學二O一二年三月AThesisSubmittedinFulfillmentoftheRequirementsfortheDegreeofMasterofEngineeringSearchofGroupIntelligentTextClusteringMethodsBasedonSemanticSimilaritySubmittedbyTaoHongSupervisedb
2、yProfessorGaoShangJiangsuUniversityofScienceandTechnologyMarch,2012江蘇科技大學學位論文原創(chuàng)性聲明本人鄭重聲明:所呈交的學位論文,是本人在導師的指導下,獨立進行研究工作所取得的成果。除文中已經注明引用的內容外,本論文不包含任何其他個人或集體已經發(fā)表或撰寫過的作品成果。對本文的研究做出重要貢獻的個人和集體,均已在文中以明確方式標明。本人完全意識到本聲明的法律結果由本人承擔。學位論文作者簽名:年月日江蘇科技大學學位論文版權使用授權書本學位論文作者完全
3、了解學校有關保留、使用學位論文的規(guī)定,同意學校保留并向國家有關部門或機構送交論文的復印件和電子版,允許論文被查閱和借閱。本人授權江蘇科技大學可以將本學位論文的全部或部分內容編入有關數據庫進行檢索,可以采用影印、縮印或掃描等復制手段保存和匯編本學位論文。本學位論文屬于:(1)保密□,在年解密后適用本授權書。(2)不保密□。學位論文作者簽名:指導教師簽名:年月日年月日摘要摘要當今世界正處于一個信息爆炸的時代,用戶查詢信息時常常被信息淹沒,迷失在信息中,這大大降低了檢索的效率。如何快速高效的進行信息的分類管理,為用戶
4、提供準確有用的信息,是一個需要迫切解決的問題。在這樣的背景下,文本挖掘技術正受到越來越多的關注。文本聚類是文本挖掘的一個重要組成部分,它是聚類方法在文本處理領域的重要應用。文本聚類由于不需要類別的信息,能自動完成文本分組,已經得到廣泛應用,如多文檔自動文摘系統(tǒng)、搜索引擎、數字圖書館等。目前大部分聚類算法是基于向量空間模型的,這使得文本聚類面臨高維性、高稀疏性和忽略語義信息的問題,影響了算法的性能和準確性。本文首先介紹了文本聚類中一些概念和方法,包括文本間距離計算、文本表示模型、文本預處理過程、聚類效果評價和常用
5、的聚類算法等;接著介紹了《知網》的組織結構、相關概念和語義相似度的計算方法,同時也提出了一種改進的文本間相似度計算方法,將其和K-均值算法結合,通過實驗數據,證明了該方法的正確性;最后介紹了本文的兩種群智能算法,并提出了本文的基于語義相似度的群智能文本聚類算法。在文本預處理的特征提取階段計算權重時,既考慮了詞頻和文檔頻率,也結合了詞的詞性和詞在文本中的位置這兩個因素;針對向量空間模型忽略了詞的語義信息的問題,本文利用《知網》,通過詞的語義信息,來計算文本相似度;針對前人研究的成果,提出了本文的算法,它是在文本相
6、似度的基礎上,融合了K-均值算法、蟻群算法和模擬退火算法,利用了它們各自的優(yōu)點,避免了各自的缺點,通過實驗數據,可以看出該算法的有效性。關鍵詞文本聚類;語義相似度;K-均值算法;蟻群算法;模擬退火算法I江蘇科技大學碩士學位論文IIABSTRACTABSTRACTNowadays,wordisinaneraofinformationexplosion.Usersareoftenoverwhelmedbyinformationwhentheysearchinginfo,whichreducestheefficien
7、cyofsearchgreatly.Howfastandefficientistheclassificationandorganizationoftheinformation,andhowtoprovideaccurateandusefulinformationforusersisaproblemwhichisurgenttobesolved.Underthisbackground,thetextminingtechnologyisgettingmoreandmoreattention.Textclusteri
8、ngisanimportantcomponentoftextmininganditistheapplicationofclusteringmethodusedintextprocessingfield.Textclusteringcancompletegroupingthetextwithouttheinformationofclass.Basedonthisadvantage,tex