基于web服務(wù)器日志挖掘的數(shù)據(jù)預(yù)處理技術(shù)研究

基于web服務(wù)器日志挖掘的數(shù)據(jù)預(yù)處理技術(shù)研究

ID:32041554

大?。?.34 MB

頁(yè)數(shù):67頁(yè)

時(shí)間:2019-01-30

基于web服務(wù)器日志挖掘的數(shù)據(jù)預(yù)處理技術(shù)研究_第1頁(yè)
基于web服務(wù)器日志挖掘的數(shù)據(jù)預(yù)處理技術(shù)研究_第2頁(yè)
基于web服務(wù)器日志挖掘的數(shù)據(jù)預(yù)處理技術(shù)研究_第3頁(yè)
基于web服務(wù)器日志挖掘的數(shù)據(jù)預(yù)處理技術(shù)研究_第4頁(yè)
基于web服務(wù)器日志挖掘的數(shù)據(jù)預(yù)處理技術(shù)研究_第5頁(yè)
資源描述:

《基于web服務(wù)器日志挖掘的數(shù)據(jù)預(yù)處理技術(shù)研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過(guò)的研究成果,也不包含為獲得電子科技大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書(shū)而使用過(guò)的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說(shuō)明并表示謝意。簽名:日期:年月日論文使用授權(quán)本學(xué)位論文作者完全了解電子科技大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱。本人授權(quán)電子科技大學(xué)可

2、以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后應(yīng)遵守此規(guī)定)簽名:導(dǎo)師簽名:日期:年月日萬(wàn)方數(shù)據(jù)摘要摘要隨著Web技術(shù)的逐漸成熟以及瀏覽器的廣泛使用,用戶通過(guò)互聯(lián)網(wǎng)所能獲取的信息量呈現(xiàn)指數(shù)級(jí)的速度增長(zhǎng)。Web的海量信息一方面為用戶提供了獲取信息的源泉,另一方面也為用戶高效的獲取有價(jià)值的知識(shí)帶來(lái)了不小的挑戰(zhàn)。如何通過(guò)Web文檔的挖掘來(lái)獲取用戶潛在的興趣或其他有用的信息,以此來(lái)對(duì)用戶提供個(gè)性化、智能化的信息服務(wù)已成為人們的迫切需求

3、。Web日志挖掘正是在這種背景環(huán)境下產(chǎn)生的。文本主要對(duì)基于Web服務(wù)器日志挖掘的數(shù)據(jù)預(yù)處理相關(guān)技術(shù)進(jìn)行研究。首先,簡(jiǎn)要概述了論文的選題背景與意義,并介紹了本文的主要研究?jī)?nèi)容和國(guó)內(nèi)外的相關(guān)研究現(xiàn)狀。然后,本文對(duì)數(shù)據(jù)挖掘的基本過(guò)程、常用算法及研究意義進(jìn)行了簡(jiǎn)要介紹,并對(duì)Web數(shù)據(jù)挖掘的難點(diǎn)和分類進(jìn)行了總結(jié),重點(diǎn)闡述了其中的Web日志挖掘,并對(duì)其中的數(shù)據(jù)預(yù)處理相關(guān)技術(shù)進(jìn)行概括。接著,本文介紹了當(dāng)前常用的一種基于Timeout頁(yè)面時(shí)間閥值的會(huì)話識(shí)別方法,在此基礎(chǔ)上提出一種基于頁(yè)面的標(biāo)準(zhǔn)瀏覽時(shí)間、裝載時(shí)間、以及頁(yè)面的鏈

4、接結(jié)構(gòu)等影響因素得到用戶對(duì)每個(gè)頁(yè)面的瀏覽時(shí)間閥值的會(huì)話識(shí)別方法,并依據(jù)用戶對(duì)頁(yè)面的瀏覽興趣進(jìn)行會(huì)話清理,為后期的數(shù)據(jù)挖掘提供較為準(zhǔn)確的會(huì)話數(shù)據(jù)。通過(guò)實(shí)驗(yàn)仿真說(shuō)明改進(jìn)會(huì)話識(shí)別方法的有效性。最后,在會(huì)話識(shí)別的基礎(chǔ)上,對(duì)會(huì)話矩陣進(jìn)行聚類分析。介紹了傳統(tǒng)的基于k?均值算法的聚類分析方法,本文在此方法的基礎(chǔ)上,綜合考慮初始重心之間的距離和初始重心所處區(qū)域的密度等因素。提出了一種基于改進(jìn)k?均值算法的會(huì)話聚類分析方法,通過(guò)實(shí)驗(yàn)仿真可知,改進(jìn)k?均值算法不僅能提高會(huì)話聚類的時(shí)間效率,而且還使會(huì)話聚類結(jié)果更加緊湊和獨(dú)立,提高

5、了整體聚類質(zhì)量。本文在已有研究的基礎(chǔ)上,主要做了以下幾個(gè)方面的創(chuàng)新研究工作。首先探討了Web服務(wù)器日志挖掘中的一個(gè)關(guān)鍵問(wèn)題,即Web日志的數(shù)據(jù)預(yù)處理問(wèn)題。針對(duì)當(dāng)前常用的一種基于Timeout頁(yè)面時(shí)間閥值的會(huì)話識(shí)別方法的不足,根據(jù)用戶對(duì)頁(yè)面的瀏覽興趣提出了一種改進(jìn)的會(huì)話識(shí)別方案。其次本文通過(guò)改進(jìn)k?均值算法進(jìn)行會(huì)話聚類,有效的提高了整體聚類質(zhì)量。關(guān)鍵詞:數(shù)據(jù)挖掘,Web日志挖掘,日志預(yù)處理,會(huì)話識(shí)別,會(huì)話聚類I萬(wàn)方數(shù)據(jù)ABSTRACTABSTRACTRecently,withtherapiddevelopmen

6、tofWebtechnologyandthewidespreaduseofthebrowser.theinformationtypeandcontentontheWebhasbecomeveryrich.Webbringspeoplerichinformationandgreatconvenience,meanwhile,howtodiscovervaluableinformationeffectivelyhasbecomeadifficultytotheuser.Anewtechnologyisurgent

7、lyneededtoautomaticallyfindpotentialandvaluableinformationfromthevarietywebresourcesandlocations.TheWeblogmining(alsoknowasWebstructuremining)emergedasthetimesrequireinthissituation.Webmininginserveraccesslogsiscategoriesinfourphases:datacollection,dataprep

8、rocessing,patterndiscovery,patternanalysis.WemainlystudyaboutdatapreprocessinginWeblogmininginthispaper.Firstly,thebackground,source,significanceandmaincontentofthisworkareintroduced,andtheexistingrela

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。