web日志中用戶訪問序列模式挖掘地研究

web日志中用戶訪問序列模式挖掘地研究

ID:34129459

大?。?.58 MB

頁數(shù):60頁

時(shí)間:2019-03-04

web日志中用戶訪問序列模式挖掘地研究_第1頁
web日志中用戶訪問序列模式挖掘地研究_第2頁
web日志中用戶訪問序列模式挖掘地研究_第3頁
web日志中用戶訪問序列模式挖掘地研究_第4頁
web日志中用戶訪問序列模式挖掘地研究_第5頁
資源描述:

《web日志中用戶訪問序列模式挖掘地研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、獨(dú)創(chuàng)性聲明㈨IlllIlIl

2、I刪lIlllⅢlII

3、

4、㈣111II刪‘iY1824672本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得重廢整電盔堂或其他教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝意。學(xué)位論文作者簽名:僻簽字日期:v刁年釤u日學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解重麼郵電太堂有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤

5、,允許論文被查閱和借閱。本人授權(quán)重麼整電太堂可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后適用本授權(quán)書)學(xué)位論文作者簽名:解導(dǎo)師簽名:勿張簽字日期:卅年廠月y日簽字日期:研年易月n重慶郵電大學(xué)碩士論文摘要隨著Web應(yīng)用的快速發(fā)展,Web數(shù)據(jù)挖掘成為數(shù)據(jù)挖掘的熱點(diǎn)之一,根據(jù)Web挖掘的目的和數(shù)據(jù)對(duì)象的不同,web數(shù)據(jù)挖掘可以分為Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘、Web日志挖掘。Web日志挖掘是對(duì)用戶訪問網(wǎng)站是留下的日志文件使用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)隱含的規(guī)律性知識(shí),得到用戶的訪問模式,對(duì)優(yōu)化站點(diǎn)結(jié)構(gòu)和

6、為用戶提供個(gè)性化服務(wù)具有重要的意義。在Web日志挖掘中數(shù)據(jù)預(yù)處理是整個(gè)挖掘過程的基礎(chǔ),直接影響日志挖掘的質(zhì)量和結(jié)果。本文在對(duì)預(yù)處理各個(gè)步驟研究分析的基礎(chǔ)上,提出了基于用戶訪問樹的Web日志挖掘數(shù)據(jù)預(yù)處理方法,根據(jù)服務(wù)器用戶訪問日志建立用戶訪問樹,并在用戶訪問樹的基礎(chǔ)上進(jìn)行用戶和事務(wù)識(shí)別,從而解決了在動(dòng)態(tài)網(wǎng)站拓?fù)浣Y(jié)構(gòu)難以獲取的情況下進(jìn)行預(yù)處理的困難,并通過實(shí)驗(yàn)驗(yàn)證了該算法識(shí)別事務(wù)的準(zhǔn)確性,為下一步序列模式挖掘打下堅(jiān)實(shí)的基礎(chǔ)。對(duì)于從Web日志中挖掘出用戶的訪問序列模式,傳統(tǒng)的序列模式挖掘算法在挖掘時(shí)往往效率很低,它們采用的頻繁模式搜索策略經(jīng)常導(dǎo)致算法構(gòu)造大量的中間數(shù)據(jù)。本文對(duì)當(dāng)前

7、主要使用的PrefixSpan算法提出改進(jìn),在構(gòu)建投影數(shù)據(jù)庫時(shí)舍棄非頻繁項(xiàng)存儲(chǔ)并在投影序列數(shù)小于最小支持度時(shí)結(jié)束掃描投影數(shù)據(jù)庫,同時(shí)通過檢查序列關(guān)于前綴的前綴,避免序列數(shù)據(jù)庫中重復(fù)投影數(shù)據(jù)庫的產(chǎn)生以及對(duì)投影數(shù)據(jù)庫進(jìn)行的重復(fù)掃描,提高了算法執(zhí)行效率,并通過實(shí)驗(yàn)對(duì)其時(shí)空性能與原算法進(jìn)行對(duì)比。本文最后在前面工作的基礎(chǔ)上,設(shè)計(jì)實(shí)現(xiàn)了一個(gè)w曲用戶訪問日志挖掘原型系統(tǒng),并就原型的各模塊進(jìn)行了分析,通過對(duì)高校網(wǎng)站服務(wù)器的真實(shí)日志數(shù)據(jù)進(jìn)行挖掘,展示了完整的W曲日志挖掘過程,實(shí)驗(yàn)證明系統(tǒng)是可行的和有效的,同時(shí)將得到用戶訪問序列模式提供給網(wǎng)站系統(tǒng)管理員參考以便更好地經(jīng)營網(wǎng)站。關(guān)鍵詞:數(shù)據(jù)挖掘,w

8、eb日志挖掘,Web日志預(yù)處理,序列模式挖掘重慶郵電大學(xué)碩士論文Absn:actAbstractWebdataminiI塢,illcludingwe_bstnlctllremiIliI唱,webcont肌tmilling觚dweblogm塒ng,isbecomingaIlaCtiVeresearchtopicofdatamilliI瑪wimtherapiddevelopmentofwebapplyiIlg.Thewcb109m塒.mggetsmewebuseraCcesspatt?。簂sby趾alyzingmeaccessinfomIationrecordedbyt11ecl

9、i鈕t,meproxyaIldⅡ圮websen,er.Theresultofweblog1Ilillingcanbeusedt0refommestnlctureoftllewebsite,f-acilitateusers’browingandhelptopr0VidepersonalizedseⅣicetousers.Datapr印rocessingismeb嬲isof廿lewholeprocessofdatamiIlingi11weblogmiIliIlg,wtlichdirectlyillfluenCesmequal塒ofmeW曲log111illing觚ditsrcsu

10、lt.Amemodofdatapr印rocessinginweblogIIlilliI培baSedonmeuseraCcess仃eeisproposcdintllispaper.Theuseraccessn.eeiscreatedaCcordingtomeW曲109sinthepr印rocessinganditisllscdt0id翎t(yī)i矽theuseraIld仃ansaCtion.Somepr印rocessingcallbeworkedwellwithoutthesitetopology.Theexp

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。