2、人已經(jīng)發(fā)表或撰寫的內容及科研成果,也不包含為獲得首都經(jīng)濟貿易大學或其它教育機構的學位或證書所使用過的材料。作者簽名:蓮&聾紐關于論文使用授權的說明本人完全了解首都經(jīng)濟貿易大學有關保留、使用學位論文的有關規(guī)定,即:學校有權保留送交論文的復印件,允許論文被查閱、借閱或網(wǎng)絡索引:學校可以公布論文的全部或部分內容,可以采取影印、縮印或其它復制手段保存論文。(保密的論文在解密后應遵守此規(guī)定)雄ElM:.年一月一首都經(jīng)濟貿易大學碩士學位論文Hadoop模型研究及其作業(yè)調度算法的改進摘要近幾年來,隨著現(xiàn)代社會的信息量增長速度極快,個人數(shù)據(jù)和工業(yè)數(shù)據(jù)量越來越大,未來的信息發(fā)
3、展方向必將以數(shù)據(jù)為中心。預計到2020年,每年生產的數(shù)字信息將會有超過蜩的內容駐留在云平臺中或借助云平臺處理。而云計算技術在工業(yè)界和學術界共同推動下取得了巨大的發(fā)展,大量的云計算系統(tǒng)投入使用。其中,很大一部分的云計算系統(tǒng)采用Hadoop平臺來開發(fā)數(shù)據(jù)處理程序。Hadoop平臺是一個在集群上運行大型數(shù)據(jù)的處理應用程序的開放式源代碼框架,其最大的優(yōu)點就是實現(xiàn)了并行化對應用開發(fā)者的透明處理,應用開發(fā)者可以像開發(fā)普通程序一樣來開發(fā)云計算的應用系統(tǒng),而并行化的具體實現(xiàn)則由Hadoop底層自動完成,使得開發(fā)者只需專注于業(yè)務數(shù)據(jù)的處理開發(fā)。Hadoop發(fā)展至今,在實際應用
4、中已經(jīng)趨于成熟,但是在一些地方還有改進的必要和需求。Hadoop的作業(yè)調度技術作為其平臺的核心技術之一,其主要是針對作業(yè)執(zhí)行的順序按照調度算法分配計算資源,而使用的調度算法決定了Hadoop平臺的系統(tǒng)資源的利用情況和整體性能。但是目前這一技術尚處于未完全成熟階段,現(xiàn)有的作業(yè)調度算法均存在著一些缺點或限制,因此,通過對現(xiàn)有作業(yè)調度算法的研究,改進其不足之處,對提高Hadoop平臺的整體性能和系統(tǒng)資源的利用率具有重要的意義。本文主要研究工作和貢獻如下:通過廣泛的資料查閱和學習,對Hadoop平臺的產生背景和核心架構模型進行了比較深入的學習研究,并重點對核心架構中
5、影響Hadoop整個集群的關鍵調度算法進行了深入學習,在學習并掌握Hadoop現(xiàn)有三種調度算法FIFO算法、公平調度算法和計算能力調度算法的基礎上,針對三種算法的不足,提出了基于Logistic的回歸作業(yè)調度算法,對算法的思路,要解決的問題進行了介紹,并在實現(xiàn)該算法的基礎上對該調度算法進行實驗驗證,實驗結果比較成功的達到了我們預期的目標,在一定程度上為Hadoop調度算法提供了更多的一種選擇,并克服了己有三種算法中固有的缺點不足之處。關鍵詞:Hadoop,作業(yè)調度,Logistic回歸首都經(jīng)濟貿易大學碩士學位論文Hadoop模型研究及其作業(yè)調度算法的改進AB
6、STRACTInrecentyears,withthefastgrowthrateofmodemsocietyandtheamountofinformation,theamountofpersonaldataandindustrialdataisgrowingmoreandmore,thefurtureoftheinformationdevelopmentmustfocusonthedata.In2020,morethan1/3ofannualproductionofdigitalinformationwillresideiIlthecloudplatfor
7、morbenifitfromthecloudplatformwhenit'sdealedwith.Cloudcomputingtechnologywilldevelopgreatlyundertheimpetusoftheindustryandacademia,aI孤genumberofcloudcomputingsystemwillbeputintouse..Amongthem,alargepartofthecloudcomputingsystemsUseHadoopplatformtodevelopdataprocessingprocedures.The
8、HadoopplatformopenSouseffa