資源描述:
《網站日志關聯(lián)性挖掘技術的研究與應用》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、東北大學2008年12月NortheasternUniversityDecember2008▲^‘,-^~J論文的規(guī)定:即學校有權保留并向國家有關部門或機構送交論文的復印件和磁盤,允許論文被查閱和借閱。本人同意東北大學可以將學位論文的全部或部分內容編入有關數(shù)據(jù)庫進行檢索、交流。(如作者和導師不同意網上交流,請在下方簽名;否則視為同意。)學位論文作者簽名:導師簽名:簽字同期:簽字日期:,^▲1^●r’東北大學碩士學位論文摘要網站日志關聯(lián)性挖掘技術的研究與應用摘要Internet的迅猛發(fā)展,尤其是Web
2、的全球普及,使得Web上信息量無比豐富。通過對Web的挖掘,可從Web頁面中提取所需的知識:對總的用戶訪問行為、頻度、內容的分析,可得到關于群體用戶訪問行為和方式的普遍知識,用以改進我們的Web服務設計。而更重要的是,通過對這些用戶特征的理解和分析,可以有助于開展有針對性的活動。網絡技術已經滲透到了社會生活的方方面面,隨著因特網在世界范圍的迅速發(fā)展,越來越多的數(shù)據(jù)庫和信息系統(tǒng)不斷加入網絡,使得Intemet發(fā)展為當今世界上門類最全、規(guī)模最大的信息庫。在帶給人們全新網絡世界的同時,也將網絡上的人們置于
3、了一個龐大的網絡迷宮,面對繽紛復雜的空間,筆者在簡述了數(shù)據(jù)挖掘技術、Web日志挖掘、研究內容、關鍵技術和目前的國內外研究狀況的基礎上,針對黑龍江大學網站的訪問日志,采用數(shù)據(jù)挖掘技術進行數(shù)據(jù)分析,從而找出用戶訪問的規(guī)律和內容喜好,為改進網站結構和內容提供了決策支持。本文主要研究了日志挖掘技術,論述了數(shù)據(jù)預處理的過程、方法以及難點解決,包括用戶識別技術,路徑補充技術等。介紹了關聯(lián)規(guī)則的經典算法Apriori算法,以黑龍江大學網站為日志挖掘對象,使用Apriori算法對經過數(shù)據(jù)預處理后的日志文件進行分析,
4、并提出了不足與未來的研究發(fā)展方向。關鍵詞:數(shù)據(jù)挖掘;Web日志挖掘;關聯(lián)規(guī)則;數(shù)據(jù)預處理;Apriori算法.^◆一◆^上r東北大學碩士學位論文AbstractTheresearchandapplicationofweblogassociationminingtechnologyAbstractTheswiftandviolentdevelopmentofInternet,especiallythewholeworldsofWebpopularizesandWebincomparablyabunda
5、ntamountofinformation.ThroughWebmining,wecandrawnecessaryknowledgefromWebpage:toanalyzethecontentstototaluserreceiveandvisitbehaviorandfrequentness,wecangetthegeneralknowledgeofbehaviorandmodeofusers,andusethattoimproveourwebserve.Andmoreimportance,thr
6、oughtheunderstandingandanalyzingofuser、scharacteristic,itcanhelpanddeveloptheactivities.Networktechnologyhadalreadypermeatedeverysideofsociallife.Becausemoreandmoredatabasesandinformationsystemscontinuallyjoinedintheinternet,ithadbeendevelopedintothewo
7、rld’Smostcompleteandlargestinformationstorehouse.Atthesametimeofbringingaperfectnewworld,italsoplacedpeopleontheintemetinaenormousmaze,F(xiàn)acingflourishingcomplicatedspace,theauthorintroducedthebaseondatamining、weblogmining、thecontentofstudy、keytechnology
8、andthecurrentstateofinteriorandoverseasstudy,especiallyanalyzedthedataofthewebsitevisitinglogofHeilongjiangUniversitybyadoptingdataminingtechnology,thus,thevisitingregularandcontentloveofusersandsuppliedthesupportofdecisionforimprovemen