資源描述:
《基于Weka平臺的改進模糊C均值聚類算法研究與應用》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、聲明本人鄭重聲明:所呈交的學位論文,是本人在指導教師的指導下,獨立進行研究所取得的成果。除文中已經注明引用的內容外,本論文不包含其他個人或集體己經發(fā)表或撰寫過的科研成果。對本文的研究做出重要貢獻的個人和集體,均己在文中以明確方式標明。本聲明的法律責任由本人承擔。論文作者簽名:墊墊益日期:汐廖.‘.爭關于學位論文使用權的說明本人完全了解太原理工大學有關保管、使用學位論文的規(guī)定,其中包括:(D學校有權保管、并向有關部門送交學位論文的原件與復印件;②學校可以采用影印、縮印或其它子復制手段復制并保存學位論文;
2、③學??稍试S學位論文被查閱或借閱;④學校可以學術交流為目的,復制贈送和交換學位論文;(D學??梢怨紝W位論文的全部或部分內容(保密學位論文在解密后遵守此規(guī)定)。作者簽名:魚墊垡日期:導師簽名:刀J弓、6,年日期:矽叢壘:丫太原理工大學碩士研究生學位論文基于Weka平臺的改進模糊C均值聚類算法研究與應用摘要數據挖掘是從大量數據資源中獲取有用信息和知識資源的方法。聚類算法是數據挖掘算法中被廣泛使用和研究的算法之一,其中模糊C均值聚類算法利用模糊理論根據隸屬度來劃分實例屬于哪個類別,對待聚類數據的分析更加客
3、觀。本文分析研究了模糊C均值聚類算法,該算法簡單且聚類性能較好,但是對初始值較敏感,容易使算法陷入局部極小值,而得不到全局最優(yōu),不但迭代次數會增加,而且最終容易導致聚類失敗。針對模糊C均值聚類算法存在的這種問題,提出了一種基于實例密度的模糊C均值聚類算法,使類中心更加接近實際聚類中心,減少了迭代次數,提高了聚類效果。通過在模擬數據集和UCI數據集上進行實驗,驗證了改進后算法的有效性。系統(tǒng)功能豐富、操作簡便、基于Java語言的開源數據挖掘工具Weka倍受數據挖掘研究者的關注。但是Weka在聚類方面集成算
4、法較少,因此,針對Weka系統(tǒng)的開發(fā)環(huán)境結構、接口規(guī)范、添加新算法的具體方法及實現步驟進行研究,對其進行二次開發(fā),實現了層次聚類算法SmipleChameleon算法、模糊C均值聚類算法以及改進后的模糊C均值聚類算法。為了進一步驗證改進后算法的有效性,本文將改進后算法應用于社會保險審計數據中。通過對社會保險審計數據進行分析研究,根據其數據具有數據量大、繳費類型多以及存在冗余數據的特點,對數據進行數據合并和屬性選擇等預處理,將傳統(tǒng)模糊C均值聚類算法及改進后算法針對每個地區(qū)的四個聚類目的進行對比實驗。通過
5、分析實驗結果,得出改進后算法減少了迭代次數的同時提高了聚類效果,再次驗證了改進后算法的有效性。關鍵詞:Weka平臺,模糊C均值聚類算法,實例密度,社會保險審計太原理工大學碩士研究生學位論文II太原理工大學碩士研究生學位論文RESEARCHANDAPPLICATl0NOFIMPRoVEDFUZZYC.MEANSCLUSTERINGALGORITHMBASEDONⅥ廠EKAPLArFORMABSTRACTDataminingisamethodtoobtainusefulinformationandknow
6、ledgeresourcesfromlargeamountsofdataresources.TheclusteringalgorithmiswidelyusedandstudiedinDataminingalgorithms.ThefuzzyC-meansclusteringalgorithmusingfuzzytheoryisclassifiedaccordingtothedegreeofmembershipinstancebelongstowhichcategory,treatclustering
7、dataanalysismoreobjective.ThepaperanalyzedthefuzzyC-meansclusteringalgorithm,thefuzzyC-meansclusteringalgorithmissimpleandhasgoodperformance,butmoresensitivetoinitialvalues,easytomakethealgorithmfallintothelocalminimumandnotglobaloptimum,notonlythenumbe
8、rofiterationsincreases,buteventuallyeasilycausethefailureofclustering.InviewoftherequirementofthefuzzyC-meansclusteringalgorithm,thepaperproposesafuzzyC—meansclusteringalgorithmbasedondensityofinstances,theclusteringcenterisclose