資源描述:
《基于web文本挖掘的聚類算法研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、TP399公開分類號:____________密級:______________10127UDC:____________單位代碼:______________碩士學位論文論文題目:基于Web文本挖掘的聚類算法研究200902154學號:_________________________楊亞坤作者:_________________________計算機應用技術專業(yè)名稱:_________________________2012年06月06日內蒙古科技大學碩士學位論文基于Web文本挖掘的聚類算法研究論文
2、題目:楊亞坤作者:_________________________柏建普副教授內蒙古科技大學指導教師:單位:協(xié)助指導教師:單位:單位:論文提交日期:2012年06月06日學位授予單位:內蒙古科技大學基于Web文本挖掘的聚類算法研究ResearchofClusteringAlgorithmBasedOnWebTextMining研究生姓名:楊亞坤指導教師姓名:柏建普內蒙古科技大學信息工程學院包頭014010,中國Candidate:YangYa-kunSupervisor:BaiJian-puSchoo
3、lofInformationEngineeringInnerMongoliaUniversityofScienceandTechnologyBaoTou014010,P.R.CHINA獨創(chuàng)性說明本人鄭重聲明:所呈交的論文是我個人在導師指導下進行的研究工作及取得研究成果。盡我所知,除了文中特別加以標注和致謝的地方外,論文中不包含其他人已經發(fā)表或撰寫的研究成果,也不包含為獲得內蒙古科技大學或其他教育機構的學位或證書所使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中做了明確的說明并表示了謝意
4、。簽名:___________日期:____________關于論文使用授權的說明本人完全了解內蒙古科技大學有關保留、使用學位論文的規(guī)定,即:學校有權保留送交論文的復印件,允許論文被查閱和借閱;學校可以公布論文的全部或部分內容,可以采用影印、縮印或其他復制手段保存論文。(保密的論文在解密后應遵循此規(guī)定)簽名:___________導師簽名:___________日期:____________內蒙古科技大學碩士學位論文摘要隨著計算機與互聯網技術的發(fā)展,數據資源日益豐富,但是隱藏在大量數據資源中的知識卻沒有
5、得到充分的利用。Web挖掘可以快速有效地獲取Web上有用的信息。因為Web上的信息主要以文本的形式表示,而文本聚類作為文本挖掘的一個重要分支,可以更好地發(fā)現文本數據中隱藏的類別特性。所以對Web文本進行聚類分析具有重要的實際價值。目前對于文本聚類算法的研究有許多,研究主要集中于對單一聚類算法的改進及探討相關參數這兩方面。但是單個聚類算法存在結果不穩(wěn)定、隨機性大的問題,現有研究趨向于集成多個聚類的結果。利用集成學習技術來改善聚類性能成為了一個新興的研究熱點。本文研究的重點是集成聚類方法。本文介紹了課題的研
6、究背景和國內外研究現狀,并闡述了文本聚類及集成聚類的相關理論和關鍵技術。詳細介紹了文本表示方法、特征選擇方法、相似性測度等文本預處理技術,并對共識函數的設計方法進行了深入探討。當前文本聚類集成方法中大多不考慮進行集成的聚類成員的質量,而當部分成員的質量較差或者有噪聲干擾時會影響最終集成結果。本文在對已有單個算法和聚類集成算法進行了研究和分析之后,針對現有集成聚類算法的不足,提出了一種加權聚類集成算法。算法的主要思想是通過評價聚類成員的綜合聚類質量以及分析成員之間的差異度來設計各個成員的權重,進而得到更好
7、的融合結果。最后,本文設計了一個文本聚類原型,并將提出的加權集成算法在文本中進行應用。在本文實驗中,把加權的集成算法WCSCE與沒有加權的集成算法CSCE以及單一K-means算法進行對比分析,驗證了加權算法的可行性及有效性。關鍵詞:數據挖掘;文本聚類;集成聚類;權重設計I內蒙古科技大學碩士學位論文AbstractWiththedevelopmentofcomputerandInternettechnology,dataresourcesarebecomingrich,buttheknowledgehi
8、ddeninlargeamountsofdataresourcesdidnotbegetthefulladvantage.WebminingcanobtainusefulinformationontheWebquicklyandefficiently.BecausetheinformationontheWebismainlyexpressedintheformoftext,textclusteringasanimportantbrancho