web挖掘中聚類算法的研究

web挖掘中聚類算法的研究

ID:33289717

大?。?.13 MB

頁數(shù):67頁

時間:2019-02-23

web挖掘中聚類算法的研究_第1頁
web挖掘中聚類算法的研究_第2頁
web挖掘中聚類算法的研究_第3頁
web挖掘中聚類算法的研究_第4頁
web挖掘中聚類算法的研究_第5頁
資源描述:

《web挖掘中聚類算法的研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫

1、南京郵電大學碩士學位論文Web挖掘中聚類算法的研究姓名:李冰申請學位級別:碩士專業(yè):計算機軟件與理論指導教師:李玲娟20100301南京郵電大學碩士研究生學位論文摘要隨著互聯(lián)網(wǎng)的飛速發(fā)展,Web數(shù)據(jù)以指數(shù)級的速度快速增長,對Web資源所蘊涵的潛在價值的需求促進了數(shù)據(jù)挖掘技術(shù)在其中的應(yīng)用。由于Web數(shù)據(jù)的海量、高維、動態(tài)以及不可預(yù)測性,基于Web的聚類研究已逐漸成為了新的熱點。本文對聚類算法在Web挖掘中的應(yīng)用展開研究,針對Web文本數(shù)據(jù)的特點,對已有的聚類算法做了一定的改進,使其能適應(yīng)于Web文本挖掘,并且提高聚類的準確度。論文首先針對K—means聚類算法在Web文本挖掘中的應(yīng)用,引入了

2、一種新的數(shù)據(jù)預(yù)處理方法,并優(yōu)化了初始質(zhì)心的選擇,設(shè)計了改進的K-means聚類算法。接著,研究了蟻群聚類算法及其在Web挖掘中的應(yīng)用。針對傳統(tǒng)的蟻群聚類算法(ACCA)未考慮各維特征貢獻率的缺陷,引入了特征加權(quán)算法,并且使用了新的概率轉(zhuǎn)換函數(shù);針對ACCA中離群點問題,提出了一種基于層次聚類和蟻群聚類的組合聚類算法一層次化蟻群聚類算法(HACCA)。論文還進行了算法實現(xiàn),并基于《人民日報標注語料庫》的文檔.特征矩陣做了仿真實驗,驗證了所設(shè)計的各個算法對Web文本挖掘的有效性。論文對聚類算法在Web挖掘中的應(yīng)用做了有益的研究。關(guān)鍵詞:Web挖掘;聚類;K.means蟻群南京郵電大學碩士研究生

3、學位論文ABSTRACTABSTRACTWiththerapiddevelopmentoftheIntemet,Webdataiscreasingexponentially.ThedemandsofpotentialvalueintheWebresourcesimprovetheapplicationofdataminingtechnologyonit.Asthemass,hi曲-dimensional,dynamicandunpredictableoftheWebdata,researchontheclusteringbasedonWebhasgraduallybecometobeane

4、whotspot.Inthisthesis,theapplicationofclusteringalgorithminWebminingisstudied.ForthecharacteristicsofWebtextdata,someoftheoriginalclusteringalgorithmsalemadecertainimprovementstoadapttoWebtextmining,andtoincreasetheclusteringaccuracy.InordertousetheK-meansclusteringalgorithmtomineWebtext,anewdatap

5、re-processingmethodisintroducedandthechoiceoftheinitialparticleisoptimized.Then,animprovedK—meansclusteringalgorithmisdesigned.ThenthethesisstudiesthecolonyclusteringalgorithmaswellasitsapplicationintheWebmining.ConsideringtheoriginalAntColonyClusteringAlgorithmCACCA)doesn’ttakethecontributionrate

6、ofeveryfeatureintoaccount,thisthesisintroducesanewfeatureweightedalgorithmandusesanewprobabilityconversionfunction.FortheoutlierproblemofACCA,itproposesacombinationofclusteringalgorithmbasedonhierarchicalclusteringalgorithmandantcolonyclusteringalgorithm一一HACCA.Thethesisalsoimplementsthesealgorith

7、ms,andhasdonesimulationexperimentsusingsomeofthedocument-featurematrixdataof’’People’SDailyannotatedcorpus”,toverifytheeffectivenessofeachdesignedalgorithmsintheWebtextmining.Thispaperhasdonesomebeneficialresearc

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。