資源描述:
《基于web日志挖掘的用戶訪問模式研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、重慶大學(xué)碩士學(xué)位論文基于Web日志挖掘的用戶訪問模式研究姓名:王瑤申請學(xué)位級別:碩士專業(yè):計算機系統(tǒng)結(jié)構(gòu)指導(dǎo)教師:李相樞20050101獨創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得重迭太堂或其他教育機構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示謝意。學(xué)位論文作者簽名:乞磋簽字日期:。加歲年歲月彳Etf學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解重迭太堂有關(guān)保
2、留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國家有關(guān)部門或機構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱。本人授權(quán)重龐太堂可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。保密(),在——年解密后適用本授權(quán)書。本學(xué)位論文屬于不保密()。(請只在上述一個括號內(nèi)打“4”)學(xué)位論文作者簽名:易循簽字日期:護F年歲月即日重慶大學(xué)碩士學(xué)位論文中文摘要摘要數(shù)據(jù)挖掘是數(shù)據(jù)庫最活躍的領(lǐng)域之。由于其廣泛的應(yīng)用背景和現(xiàn)實意義,數(shù)據(jù)挖掘技術(shù)的研究和應(yīng)用都獲得了突飛猛進的發(fā)展,在國內(nèi)外的學(xué)術(shù)界和信息產(chǎn)業(yè)界備受關(guān)注。數(shù)據(jù)挖掘是從大量
3、數(shù)據(jù)中發(fā)現(xiàn)人們感興趣的、隱藏的、先前未知的知識。數(shù)據(jù)挖掘技術(shù)主要研究結(jié)構(gòu)化的數(shù)據(jù)挖掘,而Web數(shù)據(jù)的挖掘是應(yīng)用于Intemet的技術(shù)研究,是從半結(jié)構(gòu)或無結(jié)構(gòu)的Web頁面中,抽取感興趣的、潛在的模式。盡管Intemet是~個半結(jié)構(gòu)化的系統(tǒng),很難對它進行處理,但是Web服務(wù)器日志記錄具有良好的結(jié)構(gòu),非常有利于數(shù)據(jù)挖掘的進行。此外,Web臼志挖掘作為Web挖掘的一個重要組成部分,具有獨特的理論和實踐意義。本文系統(tǒng)地闡述了從數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘到Web日志挖掘整個過程,重點討論在Web日志的挖掘上。通過閱讀文獻對web使用挖掘技術(shù)進行了分析和論述,特別是對Mar
4、kov模型預(yù)測方法進行了詳細的討論分析了其優(yōu)缺點,通過對已有的各種運用Markov模型進行Web瀏覽預(yù)測的方法的分析,我們發(fā)現(xiàn)這些預(yù)測的方法單純考慮瀏覽次數(shù)往往會得到多個概率相同的結(jié)果,預(yù)測精度不夠高。如果把時間因素加以考慮在內(nèi),在一定程度上就能解決這些問題。在此基礎(chǔ)上本文提出了一種帶訪問傾向權(quán)重的Markov模型預(yù)測方法,該方法的主要特點是:在Markov模型中增加瀏覽時間參數(shù),并利用值差分度量法對時間參數(shù)進行離散化處理:引入訪問傾向權(quán)重的概念,對轉(zhuǎn)移概率計算方法加以改進:在此基礎(chǔ)上還引入新的預(yù)測算法。最后進行了模擬實驗,說明該方法能獲得較高的預(yù)測精度,可
5、以用于預(yù)測Web用戶非??赡茉L問的頁面。最后設(shè)計出一個web用戶訪問模式挖掘的原型系統(tǒng)。關(guān)鍵詞:Web使用挖掘,用戶訪問模式,Markov模型,訪問傾向權(quán)重重慶大學(xué)碩士學(xué)位論文英文摘要ABSTRACTOneofthemostimportantfieldsindatabaseisdatamining.inviewofitswideapplicationandpracricalsignificance,thetechniqueandapplicationofdataminingdevelopedrapidlyandattractedmuchmoreattenti
6、ngbothinfieldsofacademicresearchandinfomlationindustry.Discoveringtheinterested,hiddenandunknowndatafromlargedatasetsisthepurposeofdatamining.Themainworkofdataminingistodealwiththestructuraldata,whilethewebdataminingisbasedonIntemettogettheinterestingandpotentialpattemfromthehalfst
7、rutualornotstructralwebpages.DatainIntemetisahalfstructuralsystem,anditisdifficulttodialwiththem.Fortunately,thewebseverlogfileshaveanicestructureanditisveryconvenientfordatamining.Furthermore,weblogminingisabranchofwebusageminigandhasspecialtheoryandpracticesignificanceasanimporta
8、ntpartofwebmining.Inthisth