資源描述:
《移動App用戶的海量日志分析的優(yōu)化策略與算法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、移動App用戶的海量日志分析的優(yōu)化策略與算法研究摘要隨著“互聯(lián)網(wǎng)+”的走熱,各行各業(yè)都與互聯(lián)網(wǎng)緊密的結(jié)合了起來,隨之產(chǎn)生了海量的數(shù)據(jù)信息,雖然面對如此多的數(shù)據(jù)信息但人們想真止找到口己感興趣的內(nèi)容也是件難事。同時互聯(lián)網(wǎng)企業(yè)絞盡腦汁分析用戶興趣,為用戶提供更好的產(chǎn)品、更好的服務(wù),日志數(shù)據(jù)記錄了用戶的行為,基于此,如何分析挖掘這些產(chǎn)品生成的海量日志數(shù)據(jù)變得非常有價值。在目前數(shù)據(jù)挖掘的研究中,關(guān)聯(lián)規(guī)則的挖掘是非常重要的研究方向,關(guān)聯(lián)規(guī)則涉及到信息、醫(yī)療、交通、金融等多個領(lǐng)域的研究。在關(guān)聯(lián)規(guī)則的挖掘算法中,由R.Agrawal和R.Srikant于1994年
2、提出的Apriori算法最為經(jīng)典和重要,算法的核心思想是通過迭代由k-1輪的頻繁項集連接剪枝生成K輪的頻繁項集。本課題主要對用戶海量數(shù)據(jù)處理算法進(jìn)行研究,其中主要包括以下幾個研究內(nèi)容:(1)關(guān)聯(lián)規(guī)則算法在日志數(shù)據(jù)挖掘中的應(yīng)用。該研究采集了視頻APP用戶的瀏覽、觀看、檢索日志數(shù)據(jù),提出數(shù)據(jù)處理的流程框圖,并基于Apriori算法得出出視頻作品之間的關(guān)聯(lián)度,根據(jù)關(guān)聯(lián)度為用戶做視頻個性化的推薦。(2)Apriori算法改進(jìn)的研究。Apriori算法在處理日志數(shù)據(jù)時由于頻繁的掃庫和生成大量的頻繁項集而使時間性能較低,本研究在大量優(yōu)化研究的基礎(chǔ)上,提出對源數(shù)
3、據(jù)、頻繁項集進(jìn)行二進(jìn)制編碼并用整數(shù)表示,通過位運算和海明距離生成頻繁項集的優(yōu)化策略。我們將優(yōu)化策略編程實現(xiàn),并分析了優(yōu)化的效果。(3)Apriori算法在MapReduce并行化編程模型下的擴(kuò)展。面對海量日志數(shù)據(jù),單機(jī)算法遠(yuǎn)不能滿足大數(shù)據(jù)挖掘的需求了,本課題通過研究并行化編程模型MapReduce,將優(yōu)化的Apriori算法在并行化編程模型MapReduce下進(jìn)行擴(kuò)展。關(guān)鍵字:數(shù)據(jù)挖掘視頻推薦關(guān)聯(lián)規(guī)則Apriori算法MapReduce模型OPTIMIZATIONSTRATEGYANDALGORITHMRESEARCHONMASSLOGANALYS
4、ISOFMOBILEAPPUSERSABSTRACTWiththerapiddevelopmentofInternet^especiallymobileInternet,Internetofthings.Currentlywehavebeenintheeraofdata,informationoverload.However,Theuserisdifficulttofindwhatsheisinterestedin,facingmassiveinformation.AndwiththeInternetcompanies,operatorsgradu
5、allyintroducedmanyInternetapplications,suchasvideos,games,community,etc?Howtoanalyzethesemassivelogdatageneratedbytheseproductsbecomesveryvaluable?Inthecurrentresearchondatamining,theminingonassociationrulesisaveryimportantresearcharea.Theresearchinvolvesmanyfieldsofinformatio
6、n,healthcare,transportation,finance,etc.IntheassociationrulesAlgorithms?theApriorialgorithmproposedbyR.AgrawalandR.Srikantin1994isthemostimportantandclassic.Thecoreideaistogenerateacandidatesetandplotcloseddowntwo-stagedetectiontominingfrequentitemsets?Thispaperfocusesontheres
7、earchonusermassivedataprocessingalgorithm,whichmainlyincludethefollowingcontents:(1)TheusageofApriorialgorithminuservideorecommendationsystem.Inthisresearch,weacquisiteandprocessafamousinternetcompany,smassivelogdata,throughminingthedegreeofassociationbetweendifferentvideos,an
8、dtorecommendmorerelevantvideotousers?(2)Theresearchofimprovem