資源描述:
《web挖掘中聚類算法的研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、南京郵電大學碩士學位論文Web挖掘中聚類算法的研究姓名:李冰申請學位級別:碩士專業(yè):計算機軟件與理論指導教師:李玲娟20100301南京郵電大學碩士研究生學位論文摘要隨著互聯(lián)網(wǎng)的飛速發(fā)展,Web數(shù)據(jù)以指數(shù)級的速度快速增長,對Web資源所蘊涵的潛在價值的需求促進了數(shù)據(jù)挖掘技術(shù)在其中的應(yīng)用。由于Web數(shù)據(jù)的海量、高維、動態(tài)以及不可預(yù)測性,基于Web的聚類研究已逐漸成為了新的熱點。本文對聚類算法在Web挖掘中的應(yīng)用展開研究,針對Web文本數(shù)據(jù)的特點,對已有的聚類算法做了一定的改進,使其能適應(yīng)于Web文本挖掘,并且提高聚類的準確度。論文首先針對K—means聚類算法在Web文本挖掘中的應(yīng)用,引入了
2、一種新的數(shù)據(jù)預(yù)處理方法,并優(yōu)化了初始質(zhì)心的選擇,設(shè)計了改進的K-means聚類算法。接著,研究了蟻群聚類算法及其在Web挖掘中的應(yīng)用。針對傳統(tǒng)的蟻群聚類算法(ACCA)未考慮各維特征貢獻率的缺陷,引入了特征加權(quán)算法,并且使用了新的概率轉(zhuǎn)換函數(shù);針對ACCA中離群點問題,提出了一種基于層次聚類和蟻群聚類的組合聚類算法一層次化蟻群聚類算法(HACCA)。論文還進行了算法實現(xiàn),并基于《人民日報標注語料庫》的文檔.特征矩陣做了仿真實驗,驗證了所設(shè)計的各個算法對Web文本挖掘的有效性。論文對聚類算法在Web挖掘中的應(yīng)用做了有益的研究。關(guān)鍵詞:Web挖掘;聚類;K.means蟻群南京郵電大學碩士研究生
3、學位論文ABSTRACTABSTRACTWiththerapiddevelopmentoftheIntemet,Webdataiscreasingexponentially.ThedemandsofpotentialvalueintheWebresourcesimprovetheapplicationofdataminingtechnologyonit.Asthemass,hi曲-dimensional,dynamicandunpredictableoftheWebdata,researchontheclusteringbasedonWebhasgraduallybecometobeane
4、whotspot.Inthisthesis,theapplicationofclusteringalgorithminWebminingisstudied.ForthecharacteristicsofWebtextdata,someoftheoriginalclusteringalgorithmsalemadecertainimprovementstoadapttoWebtextmining,andtoincreasetheclusteringaccuracy.InordertousetheK-meansclusteringalgorithmtomineWebtext,anewdatap
5、re-processingmethodisintroducedandthechoiceoftheinitialparticleisoptimized.Then,animprovedK—meansclusteringalgorithmisdesigned.ThenthethesisstudiesthecolonyclusteringalgorithmaswellasitsapplicationintheWebmining.ConsideringtheoriginalAntColonyClusteringAlgorithmCACCA)doesn’ttakethecontributionrate
6、ofeveryfeatureintoaccount,thisthesisintroducesanewfeatureweightedalgorithmandusesanewprobabilityconversionfunction.FortheoutlierproblemofACCA,itproposesacombinationofclusteringalgorithmbasedonhierarchicalclusteringalgorithmandantcolonyclusteringalgorithm一一HACCA.Thethesisalsoimplementsthesealgorith
7、ms,andhasdonesimulationexperimentsusingsomeofthedocument-featurematrixdataof’’People’SDailyannotatedcorpus”,toverifytheeffectivenessofeachdesignedalgorithmsintheWebtextmining.Thispaperhasdonesomebeneficialresearc