資源描述:
《hadoop平臺(tái)的作業(yè)調(diào)度算法研究與改進(jìn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、中文圖書(shū)分類號(hào):TP391密級(jí):公開(kāi)UDC:004學(xué)校代碼:10005火/入f乂?參BE口INCUNIVERSITYOF了ECHNOLQGY碩±學(xué)位論文MASTERALDISSERTATION論文題目:Hadoop平臺(tái)的作業(yè)調(diào)度算法研究與改進(jìn)論文作者:鮑雷學(xué)科:計(jì)算機(jī)科學(xué)與技術(shù)指導(dǎo)教師:蔡永泉教授論文提交日期:2016年6月UDC:004學(xué)校代碼:10005TP1201307003中文圖書(shū)分類號(hào):39學(xué)號(hào):S密級(jí):公開(kāi)北京王業(yè)大學(xué)
2、王學(xué)碩去學(xué)位論文題目:由doop平臺(tái)的作業(yè)調(diào)度算法研究與改進(jìn)英文題目:THERESEARCHANDOPTIMIZATIONOFJOBSCHEDULEALGORITHMINHADOOP論文作者:鮑雷學(xué)科專業(yè):計(jì)算機(jī)科學(xué)與技術(shù)研究方向:計(jì)算機(jī)軟件與理論申請(qǐng)學(xué)位:工學(xué)碩擊指導(dǎo)教師:蔡永泉所在單位:計(jì)算機(jī)學(xué)院答辯日期:2016年6月授予學(xué)位單位:北京工業(yè)大學(xué)獨(dú)創(chuàng)性聲明本人聲明所呈交的論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除了文
3、中特別加W標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過(guò)的研究成果,也不包含為獲得北京工業(yè)大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書(shū)而使用過(guò)的材料一。與我同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說(shuō)明并表示了謝意。簽名:鮑雷日期:20化年6月18日關(guān)于論文使用授權(quán)的說(shuō)明本人完全了解北京工業(yè)大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,目P:學(xué)校有權(quán),允許論文被查閱和借閱保留送交論文的復(fù)印件;學(xué)??桑坠颊撐牡娜炕虿浚崳姺謨?nèi)容,可W采用影印、縮印或其他復(fù)制手段保存論文。(保密的論文在
4、解密后應(yīng)遵守此規(guī)定)簽名:鮑雷日期:20化年6月18日1導(dǎo)師簽名:蔡永泉日期:20化年6月8日摘要摘要隨著互聯(lián)網(wǎng)行業(yè)的蓬勃發(fā)展,人們對(duì)大數(shù)據(jù)技術(shù)的應(yīng)用更加深入和廣泛。作為主流的海量數(shù)據(jù)并行計(jì)算平臺(tái),Hadoop在性能方面正面臨越發(fā)嚴(yán)格的考驗(yàn)。Hadoop平臺(tái)的調(diào)度器控制著作業(yè)的調(diào)度和資源的分配,其作業(yè)調(diào)度算法的優(yōu)劣直接影響集群的性能的好壞。因此,研究并改進(jìn)Hadoop平臺(tái)的作業(yè)調(diào)度算法具有重要意義。本文對(duì)Hadoop平臺(tái)的作業(yè)調(diào)度算法進(jìn)行了W下兩個(gè)方面的研究:
5、1YARN集、針對(duì)現(xiàn)有的基于截止時(shí)間的作業(yè)調(diào)度算法在群無(wú)法工作的問(wèn)題,本文提出了一種面向YARN架構(gòu)的作業(yè)調(diào)度算法。算法根據(jù)作業(yè)的截止時(shí)間和運(yùn)行情況推測(cè)作業(yè)并發(fā)任務(wù)數(shù)量的臨界值。利用該臨界值將集群資源分為基本資源和額外資源兩部分,通過(guò)對(duì)兩部分資源采取不同的調(diào)度方式,在最大限度保證作業(yè)時(shí)間限制的前提下,實(shí)現(xiàn)資源使用效率最大化。經(jīng)實(shí)驗(yàn)證明,此算法可W有效地提升在截止時(shí)間之前完成的作業(yè)數(shù)量。2f一、針對(duì)細(xì)ufle階段產(chǎn)生的網(wǎng)絡(luò)開(kāi)銷導(dǎo)致集群性能下降的問(wèn)題,提出了種Reduce任務(wù)調(diào)度算法。該算法
6、根據(jù)數(shù)據(jù)本地性和傳輸數(shù)據(jù)量對(duì)Shuffle階段網(wǎng)絡(luò)一開(kāi)銷的影響,計(jì)算種用于衡量由Reduce任務(wù)產(chǎn)生的網(wǎng)絡(luò)開(kāi)銷多少的指標(biāo)。算法根據(jù)運(yùn)個(gè)指標(biāo)選擇執(zhí)行Reduce任務(wù)的節(jié)點(diǎn)。當(dāng)首選節(jié)點(diǎn)過(guò)載時(shí),算法將根據(jù)節(jié)點(diǎn)的負(fù)載情況選擇備用節(jié)點(diǎn)。實(shí)驗(yàn)表明,該算法能夠有效地減少作業(yè)在Shuffle階段產(chǎn)生的網(wǎng)絡(luò)開(kāi)銷。對(duì)于Reduce階段時(shí)間比重較大作業(yè),該算法可W有效地縮短響應(yīng)時(shí)間。關(guān)鍵字:Hadoop;YARN;作業(yè)調(diào)度-I-Abstm。乂bs化actWiththerapiddevelop
7、mentoftheInternetindustry,the也oroughl:echnologyofBigDataisextensivelyadopl:ed.Asamajorparallelcomputingplatformofmassivedata,Hadoopisfacinmorestrinenttestintermsoferformance.Theschedulerofggphadoopisinchargeofschedulin
8、gobandresource,whosealorithmdeterminesthejgperformanceofthecluster.HenceitiscrucialtostudyandoptimizetheJobScheduleAlgorithmofHadoop.Thi