資源描述:
《基于dag模型的離線數據處理引擎的設計與實現》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、碩士學位論文(工程碩士)基于DAG模型的離線數據處理引擎的設計與實現THEDESIGNANDIMPLEMENTATIONOFOFFLINEDATAPROCESSINGENGINEBASEDONDAGMODEL殷榮哈爾濱工業(yè)大學2016年6月國內圖書分類號:TP311學校代碼:10213國際圖書分類號:621.3密級:公開工程碩士學位論文基于DAG模型的離線數據處理引擎的設計與實現碩士研究生:殷榮導師:蘇小紅教授副導師:王坤朋申請學位:工程碩士學科:軟件工程所在單位:軟件學院答辯日期:2016年6月授予學位單位:哈爾濱工業(yè)大學Classifi
2、edIndex:TP311U.D.C.:621.3DissertationfortheMaster’sDegreeinEngineeringTHEDESIGNANDIMPLEMENTATIONOFOFFLINEDATAPROCESSINGENGINEBASEDONDAGMODELCandidate:YinRongSupervisor:ProfessorSuXiaohongAssociateSupervisor:WangKunpengAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:
3、SoftwareEngineeringAffiliation:SchoolofSoftwareDateofDefence:June,2016Degree-Conferring-Institution:HarbinInstituteofTechnology哈爾濱工業(yè)大學工程碩士學位論文摘要隨著經濟和科學的快速發(fā)展,各行各業(yè)每天都會有大量的數據產生,其中有很多數據甚至是沒有任何規(guī)律的。面對如此復雜而又龐大的數據,我們應該如何將他們利用起來,如何在較短的時間內從這些數據中挖掘出有意義的信息?本課題的目的是實現一個通用的、靈活的、高效的海量離線數據
4、處理引擎?;谀壳按髷祿幚硪娌痪哂型ㄓ眯缘膯栴},本引擎提出了一種新的設計方案:采用DAG(有向無環(huán)圖)模型進行應用場景建模。DAG模型能夠滿足用戶根據自身需要靈活改變各個場景執(zhí)行順序的需求;DAG模型解決了本引擎允許用戶自定義算子的問題;DAG模型有利于實現引擎的高擴展性、靈活性和通用性。為了提高引擎的處理速度,本引擎采用的是Spark計算框架。Spark的中間處理結果是存儲在內存中的。在數據迭代處理過程中會減少大量的IO消耗。同時,Spark的內部設計模式決定了其具有高擴展性,這能夠滿足本引擎對擴展性、靈活性的需求。最后,Spark是
5、支持DAG的分布式計算框架,與本引擎選用的DAG模型相契合。本引擎中每個算子代表一種數據處理功能,本引擎提供一些算子,同時支持用戶根據自身處理需求自定義算子。本引擎是對Spark的進一步封裝,用戶在自定義算子的時候不需要使用Spark的底層API。該引擎能夠實現對接各種異構數據,能夠從用戶指定的不同數據源將數據拉到HDFS,能夠處理不同類型的文件。本引擎已經投入使用,目前運行良好。本引擎解決了現有的大數據處理系統(tǒng)效率低、通用性差的技術問題。關鍵詞:海量數據;離線數據處理;Spark;DAGI哈爾濱工業(yè)大學工程碩士學位論文AbstractWi
6、ththerapiddevelopmentofeconomyandscience,theamountofdatageneratedbyvariousindustrieseverydayismyriad.Thereareeveninnumerabledatawithoutanyrules.Facedwithsuchacomplexandcountlessdata,howshouldweusethem?Howdowedigoutthemeaningfulinformationfromthedatainashorterperiodoftime?T
7、hemainpurposeofthisprojectistoachieveacommon,flexibleandefficientmassofflinedataprocessingengine.Basedonanewdesignofthecurrentlargedataprocessingenginedoesnothavetheversatility,thisengineisproposed.Anewdesign:theuseofDAG(directedacyclicgraph)modeltoestablishscenarios.DAGmo
8、delcansatisfytheneedsofusersaccordingtotheirownneedstobeflexibletochangetheorderoftheimpl