web挖掘中聚類算法的研究

web挖掘中聚類算法的研究

ID:33289717

大?。?.13 MB

頁數(shù):67頁

時(shí)間:2019-02-23

web挖掘中聚類算法的研究_第1頁
web挖掘中聚類算法的研究_第2頁
web挖掘中聚類算法的研究_第3頁
web挖掘中聚類算法的研究_第4頁
web挖掘中聚類算法的研究_第5頁
資源描述:

《web挖掘中聚類算法的研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫

1、南京郵電大學(xué)碩士學(xué)位論文Web挖掘中聚類算法的研究姓名:李冰申請(qǐng)學(xué)位級(jí)別:碩士專業(yè):計(jì)算機(jī)軟件與理論指導(dǎo)教師:李玲娟20100301南京郵電大學(xué)碩士研究生學(xué)位論文摘要隨著互聯(lián)網(wǎng)的飛速發(fā)展,Web數(shù)據(jù)以指數(shù)級(jí)的速度快速增長,對(duì)Web資源所蘊(yùn)涵的潛在價(jià)值的需求促進(jìn)了數(shù)據(jù)挖掘技術(shù)在其中的應(yīng)用。由于Web數(shù)據(jù)的海量、高維、動(dòng)態(tài)以及不可預(yù)測(cè)性,基于Web的聚類研究已逐漸成為了新的熱點(diǎn)。本文對(duì)聚類算法在Web挖掘中的應(yīng)用展開研究,針對(duì)Web文本數(shù)據(jù)的特點(diǎn),對(duì)已有的聚類算法做了一定的改進(jìn),使其能適應(yīng)于Web文本挖掘,并且提高聚類的準(zhǔn)確度。論文首先針對(duì)K—means聚類算法在Web文本挖掘中的應(yīng)用,引入了

2、一種新的數(shù)據(jù)預(yù)處理方法,并優(yōu)化了初始質(zhì)心的選擇,設(shè)計(jì)了改進(jìn)的K-means聚類算法。接著,研究了蟻群聚類算法及其在Web挖掘中的應(yīng)用。針對(duì)傳統(tǒng)的蟻群聚類算法(ACCA)未考慮各維特征貢獻(xiàn)率的缺陷,引入了特征加權(quán)算法,并且使用了新的概率轉(zhuǎn)換函數(shù);針對(duì)ACCA中離群點(diǎn)問題,提出了一種基于層次聚類和蟻群聚類的組合聚類算法一層次化蟻群聚類算法(HACCA)。論文還進(jìn)行了算法實(shí)現(xiàn),并基于《人民日?qǐng)?bào)標(biāo)注語料庫》的文檔.特征矩陣做了仿真實(shí)驗(yàn),驗(yàn)證了所設(shè)計(jì)的各個(gè)算法對(duì)Web文本挖掘的有效性。論文對(duì)聚類算法在Web挖掘中的應(yīng)用做了有益的研究。關(guān)鍵詞:Web挖掘;聚類;K.means蟻群南京郵電大學(xué)碩士研究生

3、學(xué)位論文ABSTRACTABSTRACTWiththerapiddevelopmentoftheIntemet,Webdataiscreasingexponentially.ThedemandsofpotentialvalueintheWebresourcesimprovetheapplicationofdataminingtechnologyonit.Asthemass,hi曲-dimensional,dynamicandunpredictableoftheWebdata,researchontheclusteringbasedonWebhasgraduallybecometobeane

4、whotspot.Inthisthesis,theapplicationofclusteringalgorithminWebminingisstudied.ForthecharacteristicsofWebtextdata,someoftheoriginalclusteringalgorithmsalemadecertainimprovementstoadapttoWebtextmining,andtoincreasetheclusteringaccuracy.InordertousetheK-meansclusteringalgorithmtomineWebtext,anewdatap

5、re-processingmethodisintroducedandthechoiceoftheinitialparticleisoptimized.Then,animprovedK—meansclusteringalgorithmisdesigned.ThenthethesisstudiesthecolonyclusteringalgorithmaswellasitsapplicationintheWebmining.ConsideringtheoriginalAntColonyClusteringAlgorithmCACCA)doesn’ttakethecontributionrate

6、ofeveryfeatureintoaccount,thisthesisintroducesanewfeatureweightedalgorithmandusesanewprobabilityconversionfunction.FortheoutlierproblemofACCA,itproposesacombinationofclusteringalgorithmbasedonhierarchicalclusteringalgorithmandantcolonyclusteringalgorithm一一HACCA.Thethesisalsoimplementsthesealgorith

7、ms,andhasdonesimulationexperimentsusingsomeofthedocument-featurematrixdataof’’People’SDailyannotatedcorpus”,toverifytheeffectivenessofeachdesignedalgorithmsintheWebtextmining.Thispaperhasdonesomebeneficialresearc

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。