資源描述:
《web挖掘中聚類算法的研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、南京郵電大學(xué)碩士學(xué)位論文Web挖掘中聚類算法的研究姓名:李冰申請(qǐng)學(xué)位級(jí)別:碩士專業(yè):計(jì)算機(jī)軟件與理論指導(dǎo)教師:李玲娟20100301南京郵電大學(xué)碩士研究生學(xué)位論文摘要隨著互聯(lián)網(wǎng)的飛速發(fā)展,Web數(shù)據(jù)以指數(shù)級(jí)的速度快速增長,對(duì)Web資源所蘊(yùn)涵的潛在價(jià)值的需求促進(jìn)了數(shù)據(jù)挖掘技術(shù)在其中的應(yīng)用。由于Web數(shù)據(jù)的海量、高維、動(dòng)態(tài)以及不可預(yù)測(cè)性,基于Web的聚類研究已逐漸成為了新的熱點(diǎn)。本文對(duì)聚類算法在Web挖掘中的應(yīng)用展開研究,針對(duì)Web文本數(shù)據(jù)的特點(diǎn),對(duì)已有的聚類算法做了一定的改進(jìn),使其能適應(yīng)于Web文本挖掘,并且提高聚類的準(zhǔn)確度。論文首先針對(duì)K—means聚類算法在Web文本挖掘中的應(yīng)用,引入了
2、一種新的數(shù)據(jù)預(yù)處理方法,并優(yōu)化了初始質(zhì)心的選擇,設(shè)計(jì)了改進(jìn)的K-means聚類算法。接著,研究了蟻群聚類算法及其在Web挖掘中的應(yīng)用。針對(duì)傳統(tǒng)的蟻群聚類算法(ACCA)未考慮各維特征貢獻(xiàn)率的缺陷,引入了特征加權(quán)算法,并且使用了新的概率轉(zhuǎn)換函數(shù);針對(duì)ACCA中離群點(diǎn)問題,提出了一種基于層次聚類和蟻群聚類的組合聚類算法一層次化蟻群聚類算法(HACCA)。論文還進(jìn)行了算法實(shí)現(xiàn),并基于《人民日?qǐng)?bào)標(biāo)注語料庫》的文檔.特征矩陣做了仿真實(shí)驗(yàn),驗(yàn)證了所設(shè)計(jì)的各個(gè)算法對(duì)Web文本挖掘的有效性。論文對(duì)聚類算法在Web挖掘中的應(yīng)用做了有益的研究。關(guān)鍵詞:Web挖掘;聚類;K.means蟻群南京郵電大學(xué)碩士研究生
3、學(xué)位論文ABSTRACTABSTRACTWiththerapiddevelopmentoftheIntemet,Webdataiscreasingexponentially.ThedemandsofpotentialvalueintheWebresourcesimprovetheapplicationofdataminingtechnologyonit.Asthemass,hi曲-dimensional,dynamicandunpredictableoftheWebdata,researchontheclusteringbasedonWebhasgraduallybecometobeane
4、whotspot.Inthisthesis,theapplicationofclusteringalgorithminWebminingisstudied.ForthecharacteristicsofWebtextdata,someoftheoriginalclusteringalgorithmsalemadecertainimprovementstoadapttoWebtextmining,andtoincreasetheclusteringaccuracy.InordertousetheK-meansclusteringalgorithmtomineWebtext,anewdatap
5、re-processingmethodisintroducedandthechoiceoftheinitialparticleisoptimized.Then,animprovedK—meansclusteringalgorithmisdesigned.ThenthethesisstudiesthecolonyclusteringalgorithmaswellasitsapplicationintheWebmining.ConsideringtheoriginalAntColonyClusteringAlgorithmCACCA)doesn’ttakethecontributionrate
6、ofeveryfeatureintoaccount,thisthesisintroducesanewfeatureweightedalgorithmandusesanewprobabilityconversionfunction.FortheoutlierproblemofACCA,itproposesacombinationofclusteringalgorithmbasedonhierarchicalclusteringalgorithmandantcolonyclusteringalgorithm一一HACCA.Thethesisalsoimplementsthesealgorith
7、ms,andhasdonesimulationexperimentsusingsomeofthedocument-featurematrixdataof’’People’SDailyannotatedcorpus”,toverifytheeffectivenessofeachdesignedalgorithmsintheWebtextmining.Thispaperhasdonesomebeneficialresearc