資源描述:
《基于mapreduce的分布式編程框架的設(shè)計與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、碩士學(xué)位論文基于MapReduce的分布式編程框架的設(shè)計與實現(xiàn)THEDESGINANDIMPLEMENTATIONOFAMAPREDUCEBASEDDISTRIBUTEPROGRAMMINGFRAMEWORK盤隆哈爾濱工業(yè)大學(xué)2011年6月中圖分類號:TP311學(xué)校代碼:10213UDC:621.3密級:公開工程碩士學(xué)位論文基于MapReduce的分布式編程框架的設(shè)計與實現(xiàn)碩士研究生:盤隆導(dǎo)師:劉遠超副教授副導(dǎo)師:邵付東高級工程師申請學(xué)位:工程碩士學(xué)科、專業(yè):軟件工程所在單位:軟件學(xué)院答辯日期:2011年6月授予
2、學(xué)位單位:哈爾濱工業(yè)大學(xué)ClassifiedIndex:TP311U.D.C:621.3DissertationfortheMaster’sDegreeinEngineeringTHEDESGINANDIMPLEMENTATIONOFAMAPREDUCEBASEDDISTRIBUTEPROGRAMMINGFRAMEWORKCandidate:PanLongSupervisor:AssociateProf.LiuYuanchaoAssociateSupervisor:SeniorEngineerShaoFudong
3、AcademicDegreeAppliedfor:MasterofEngineeringSpeciality:SoftwareEngineeringAffiliation:SchoolofSoftwareDateofDefence:June,2011Degree-Conferring-Institution:HarbinInstituteofTechnology哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文摘要作為一個擁有廣大用戶群的桌面產(chǎn)品,騰訊公司QQ電腦管家每天都會產(chǎn)生海量的用戶數(shù)據(jù)。后臺中心對于用戶數(shù)據(jù)的處理與分析對于改
4、進產(chǎn)品具有重大的意義。公司數(shù)據(jù)平臺部的計算資源需要支持核心業(yè)務(wù)因而申請成本高,所以搭建一個靈活有效的分布式計算框架,利用空閑的開發(fā)機計算資源來完成日常統(tǒng)計與數(shù)據(jù)處理工作具有較高的實際意義。MapReduce作為一個海量數(shù)據(jù)處理的架構(gòu)被廣泛用于各大領(lǐng)域之中。本文通過對于MapReduce架構(gòu)的研究,進而提出并設(shè)計實現(xiàn)了一種基于MapReduce的分布式編程框架來簡化對于日常海量數(shù)據(jù)處理的編程工作,以滿足管家后臺的數(shù)據(jù)處理需求。在設(shè)計與實現(xiàn)過程中,重點放在了此編程框架的任務(wù)調(diào)度與容錯功能上面,以期待獲得良好的錯誤恢復(fù)
5、能力。在功能測試方面,本文使用一個QQ加速狀態(tài)上報的詞頻統(tǒng)計程序來進行測試,并人工對一個處理節(jié)點施加障礙以驗證容錯機制是否可以探查到落后任務(wù)的產(chǎn)生。在性能測試方面,本文使用了詞頻統(tǒng)計程序與記錄排序程序來模擬日常需求中的統(tǒng)計與數(shù)據(jù)處理問題?;谶@兩個測試程序?qū)Ρ究蚣艿娜蝿?wù)響應(yīng)時間,總機器時間與加速比進行了分析,以證明本編程框架的確具備處理海量數(shù)據(jù)的能力。通過以上完成的工作,本框架可以搭建在后臺中心的開發(fā)機群上以完成管家日常統(tǒng)計工作與數(shù)據(jù)處理工作的計算任務(wù),并具有良好的計算能力、容錯性與可擴展性。關(guān)鍵詞:分布式計算;
6、海量數(shù)據(jù)處理;MapReduce;容錯;中間結(jié)果分類-I-哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文AbstractAsadesktopproductwhichhasalargenumberofusers,QQPcmgrhastohandlemassiveuserdata.Processandanalysisoftheuserdatacontributealottotheimprovementofproductquality.However,itisdifficultforQQPcmgrbackendroutinejobst
7、oapplyforprocessresource,becausethecompany’sdataprocesscenterhasmanycriticalprocessjobswhichsupportthecorebusiness.Inthissituation,ifwebuildanenvironmentthatmakesfulluseofthespareprocessabilityofthedevelop-serverstohandleroutinedataprocessjobsofQQPcmgr,it’llb
8、eofgreatpracticalvalue.Inthepaper,bystudytheMapReducearchitecture,wedesignedandimplementedaMapReducebaseddistributeframeworktosimplifyroutinedataprocesswork.Duringtheprocess,wefocusedonth