資源描述:
《面向用戶信息行為的數(shù)據(jù)挖掘研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、密級(jí):學(xué)校代碼:10075分類號(hào):學(xué)號(hào):20101552管理學(xué)碩士學(xué)位論文面向用戶信息行為的數(shù)據(jù)挖掘研究學(xué)位申請(qǐng)人:李志明指導(dǎo)教師:宛玲教授:田學(xué)東教授學(xué)位類別:管理學(xué)碩士學(xué)科專業(yè):情報(bào)學(xué)授予單位:河北大學(xué)答辯日期:二○一三年六月ClassifiedIndex:CODE:10075U.D.C.:NO:20101552ADissertationfortheDegreeofM.ManagementResearchofDataMiningOrientedonUser’sInformationBehaviorCandidate:LiZhimingSupervisor:Prof.WanLingProf
2、.TianXuedongAcademicDegreeAppliedfor:MasterofManagementSpecialty:InformationScienceUniversity:HebeiUniversityDateofOralExamination:June,2013摘要摘要隨著信息化的發(fā)展,越來越多的機(jī)構(gòu)注重加強(qiáng)信息系統(tǒng)的開發(fā)和應(yīng)用,尤其近些年JavaScript的興盛不衰,RIA技術(shù)的大量運(yùn)用使許多的應(yīng)用都基于Web開發(fā)和部署,軟件工程師們?yōu)榱烁玫牧私夂驼莆沼脩粜枨?,加?qiáng)用戶體驗(yàn),開發(fā)了很多日志采集系統(tǒng),通過這些系統(tǒng)記錄了用戶的訪問行為,產(chǎn)生大量的日志數(shù)據(jù),這些數(shù)據(jù)蘊(yùn)藏著很
3、高價(jià)值的信息。分析和挖掘這些數(shù)據(jù)中潛藏的信息可以得到一些有趣模式,這些有趣的模式可以幫助網(wǎng)絡(luò)服務(wù)提供者提供更好的網(wǎng)絡(luò)服務(wù)。相關(guān)機(jī)構(gòu)經(jīng)常用數(shù)據(jù)挖掘中的統(tǒng)計(jì)分析和關(guān)聯(lián)規(guī)則挖掘算法來分析用戶的瀏覽行為、交互行為,提高網(wǎng)站的用戶黏度,進(jìn)而提高網(wǎng)站的服務(wù)。本文首先對(duì)用戶信息行為模式挖掘相關(guān)技術(shù)研究,包括對(duì)用戶信息行為國(guó)內(nèi)外現(xiàn)狀研究、用戶行為模式挖掘結(jié)構(gòu)的研究以及進(jìn)行挖掘需要的Map/Reduce模型和Apriori算法的研究。本文重點(diǎn)從實(shí)際環(huán)境中采用clickstreams模型采集用戶的點(diǎn)擊流數(shù)據(jù),通過模型化得到用戶會(huì)話、活動(dòng)以及持續(xù)時(shí)間等屬性的點(diǎn)擊流模型。采用Map/Reduce模型,將日志數(shù)據(jù)在云
4、平臺(tái)進(jìn)行分類統(tǒng)計(jì),對(duì)兩個(gè)版本系統(tǒng)進(jìn)行對(duì)比分析,分析了用戶瀏覽行為模式。同時(shí)對(duì)傳統(tǒng)Apriori算法進(jìn)行改進(jìn),使之適應(yīng)Hadoop分布式計(jì)算平臺(tái),并對(duì)系統(tǒng)中的交互行為模式進(jìn)行挖掘和關(guān)聯(lián)分析,分析用戶與用戶之間交互行為的關(guān)聯(lián)度以及用戶部門之間交互關(guān)聯(lián)度。通過對(duì)用戶信息行為模式的分析為應(yīng)用系統(tǒng)網(wǎng)站的優(yōu)化設(shè)計(jì)和機(jī)構(gòu)信息決策提供參考依據(jù)。最后,對(duì)本文所做工作以及對(duì)尚存在的問題進(jìn)行總結(jié),提出可以進(jìn)一步改進(jìn)和研究的內(nèi)容。關(guān)鍵詞用戶信息行為數(shù)據(jù)挖掘Map/Reduce計(jì)算模型Apriori算法IAbstractAbstractWiththedevelopmentofinformation,moreandmo
5、recompaniespayattentiontothedevelopmentanddeploymentofinformationsystem.especially,forjavascriptdevelopingconstantlyandRIA(RichInternetApplication)prevailingfortheseyears,lotsofapplicationsystemsaredevelopedbasedonWeb.Softwareengineersdevelopanumberofloggerinordertolearnaboutuser’srequestandimprove
6、user’sscreen.Theycanrecorduser’saccessbehaviorswithlotsoflogdata,whichbearahighvalueinformation.Analysisandminingpotentialinformationfromthesedatacangetsomeinterestingmodels,andtheseinterestingmodelscanhelpInternetcompaniestoprovidebetternetworkservices.Internetcompaniesoftenusedataminingassociatio
7、nrulesminingalgorithmtoanalyzetheuser'sbrowsingbehavior,toimprovethesite'suser’sviscosity,therebyimprovingtheprofitabilityofsite.Firstly,thispapermakesastudyontherelevanttechnologiesontheminingofuserinforma