資源描述:
《web日志挖掘技術(shù)研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、南京航空航天大學碩士學位論文Web日志挖掘技術(shù)研究姓名:李甲林申請學位級別:碩士專業(yè):計算機應用技術(shù)指導教師:王建東20081201南京航空航天大學碩士學位論文摘要隨著WWW網(wǎng)上可利用信息呈現(xiàn)爆炸性的增長,人們發(fā)現(xiàn)快速有效地訪問相關(guān)信息正變得越來越困難。對于網(wǎng)站的設計者來說,如何適應用戶的訪問需求來調(diào)整網(wǎng)站的內(nèi)容與結(jié)構(gòu),也是一個非常有挑戰(zhàn)性的任務。正是在這種情況下,Web數(shù)據(jù)挖掘技術(shù)應運而生。Web日志挖掘是目前Web數(shù)據(jù)挖掘中非常重要的一個研究領域和研究方向。Web站點的服務器日志數(shù)據(jù)記錄了瀏覽
2、用戶對此Web站點訪問時的大量路徑。通過分析和發(fā)現(xiàn)Web日志記錄中的規(guī)律,我們可以挖掘出Web用戶潛在的使用規(guī)律和模式。這方面的研究成果可被廣泛應用于發(fā)現(xiàn)電子商務中的潛在客戶、提高Web服務的質(zhì)量和效率以及優(yōu)化企業(yè)信息門戶性能等領域。本文從分析數(shù)據(jù)挖掘技術(shù)入手,著重研究如何利用Web日志挖掘技術(shù)分析日志得到用戶對網(wǎng)站的訪問模式。首先系統(tǒng)地介紹了數(shù)據(jù)挖掘和Web數(shù)據(jù)挖掘的基本概念和方法。然后針對Web日志挖掘,重點研究了Web日志數(shù)據(jù)預處理技術(shù)。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘研究的一項重要內(nèi)容。本文分析了W
3、eb日志中關(guān)聯(lián)規(guī)則的經(jīng)典挖掘算法Apriori算法及其不足之處,提出了基于矩陣約簡技術(shù)的關(guān)聯(lián)規(guī)則挖掘改進算法Apriori_BMR。新算法采用布爾矩陣來存儲事務數(shù)據(jù)庫,利用一定的約簡規(guī)則來逐步約簡事務數(shù)據(jù)矩陣,有效地解決了Apriori算法迭代產(chǎn)生頻繁項集的瓶頸問題。實驗表明,新算法比Apriori算法具有更高的效率和性能。關(guān)鍵詞:Web日志;Web數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;Web日志預處理IWeb日志挖掘技術(shù)研究AbstractWiththeexplosivegrowthofknowledgeavai
4、lableontheWorldWideWeb,itbecomesmuchmoredifficultforuserstoaccessrelevantinformationefficientlyanditalsopresentsachallegingtaskforwebdesignerstoorganizesitecontentstomeettheneedsofusers.Justinthiscase,Webdatamingingtechnologyarisesatthehistoricmement.
5、Recently,WeblogminingisaveryimportantdirectionanddomaininWebdataminingarea.TheWeblogfilerecordsmassivepathinformationofusers.WecoulddiseovertheruleandpatternofthepotentialWebusersthroughanalyzingandfindingouttherulesintheweblog.Researchinthisareacould
6、bewidelyusedindiseoveringthepotentialcustomersine-businessandimprovethequalityandefficiencyoftheenterpriseinformationportal.ThethesisbeginswithanalyzingthedataminingtechnolygyandfocusonhowtomakeuseoftheWeblogminingtechnologytogetthecustomer'saccesstot
7、hewebsitepattern.Firstly,wehaveintroducedthebasicconceptandmethodofdataminingandwebmining.Thenweanalysisthecharacteristicofweblogsandstudythoroughlythetechnologyofpreprocessofweblogs.Miningassociationrulesisoneofthemostimportanttopicsindatamining.Afte
8、rresearchingthealgorithmofminingassociationrulesanditsdeficienciesweproposedanewefficientassociationrulesminingalgorithmnamedApriori_BMRbasedonmatrix_reducing.Thisnewalorithmusesbooleanmatrixtostoretransactiondatabaseandreducestransactionmatri