基于dag模型的離線數據處理引擎的設計與實現

基于dag模型的離線數據處理引擎的設計與實現

ID:35056344

大?。?.89 MB

頁數:82頁

時間:2019-03-17

基于dag模型的離線數據處理引擎的設計與實現_第1頁
基于dag模型的離線數據處理引擎的設計與實現_第2頁
基于dag模型的離線數據處理引擎的設計與實現_第3頁
基于dag模型的離線數據處理引擎的設計與實現_第4頁
基于dag模型的離線數據處理引擎的設計與實現_第5頁
資源描述:

《基于dag模型的離線數據處理引擎的設計與實現》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫

1、碩士學位論文(工程碩士)基于DAG模型的離線數據處理引擎的設計與實現THEDESIGNANDIMPLEMENTATIONOFOFFLINEDATAPROCESSINGENGINEBASEDONDAGMODEL殷榮哈爾濱工業(yè)大學2016年6月國內圖書分類號:TP311學校代碼:10213國際圖書分類號:621.3密級:公開工程碩士學位論文基于DAG模型的離線數據處理引擎的設計與實現碩士研究生:殷榮導師:蘇小紅教授副導師:王坤朋申請學位:工程碩士學科:軟件工程所在單位:軟件學院答辯日期:2016年6月授予學位單位:哈爾濱工業(yè)大學Classifi

2、edIndex:TP311U.D.C.:621.3DissertationfortheMaster’sDegreeinEngineeringTHEDESIGNANDIMPLEMENTATIONOFOFFLINEDATAPROCESSINGENGINEBASEDONDAGMODELCandidate:YinRongSupervisor:ProfessorSuXiaohongAssociateSupervisor:WangKunpengAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:

3、SoftwareEngineeringAffiliation:SchoolofSoftwareDateofDefence:June,2016Degree-Conferring-Institution:HarbinInstituteofTechnology哈爾濱工業(yè)大學工程碩士學位論文摘要隨著經濟和科學的快速發(fā)展,各行各業(yè)每天都會有大量的數據產生,其中有很多數據甚至是沒有任何規(guī)律的。面對如此復雜而又龐大的數據,我們應該如何將他們利用起來,如何在較短的時間內從這些數據中挖掘出有意義的信息?本課題的目的是實現一個通用的、靈活的、高效的海量離線數據

4、處理引擎?;谀壳按髷祿幚硪娌痪哂型ㄓ眯缘膯栴},本引擎提出了一種新的設計方案:采用DAG(有向無環(huán)圖)模型進行應用場景建模。DAG模型能夠滿足用戶根據自身需要靈活改變各個場景執(zhí)行順序的需求;DAG模型解決了本引擎允許用戶自定義算子的問題;DAG模型有利于實現引擎的高擴展性、靈活性和通用性。為了提高引擎的處理速度,本引擎采用的是Spark計算框架。Spark的中間處理結果是存儲在內存中的。在數據迭代處理過程中會減少大量的IO消耗。同時,Spark的內部設計模式決定了其具有高擴展性,這能夠滿足本引擎對擴展性、靈活性的需求。最后,Spark是

5、支持DAG的分布式計算框架,與本引擎選用的DAG模型相契合。本引擎中每個算子代表一種數據處理功能,本引擎提供一些算子,同時支持用戶根據自身處理需求自定義算子。本引擎是對Spark的進一步封裝,用戶在自定義算子的時候不需要使用Spark的底層API。該引擎能夠實現對接各種異構數據,能夠從用戶指定的不同數據源將數據拉到HDFS,能夠處理不同類型的文件。本引擎已經投入使用,目前運行良好。本引擎解決了現有的大數據處理系統(tǒng)效率低、通用性差的技術問題。關鍵詞:海量數據;離線數據處理;Spark;DAGI哈爾濱工業(yè)大學工程碩士學位論文AbstractWi

6、ththerapiddevelopmentofeconomyandscience,theamountofdatageneratedbyvariousindustrieseverydayismyriad.Thereareeveninnumerabledatawithoutanyrules.Facedwithsuchacomplexandcountlessdata,howshouldweusethem?Howdowedigoutthemeaningfulinformationfromthedatainashorterperiodoftime?T

7、hemainpurposeofthisprojectistoachieveacommon,flexibleandefficientmassofflinedataprocessingengine.Basedonanewdesignofthecurrentlargedataprocessingenginedoesnothavetheversatility,thisengineisproposed.Anewdesign:theuseofDAG(directedacyclicgraph)modeltoestablishscenarios.DAGmo

8、delcansatisfytheneedsofusersaccordingtotheirownneedstobeflexibletochangetheorderoftheimpl

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯系客服處理。