HDFS糾刪碼機(jī)制的優(yōu)化研究.pdf

HDFS糾刪碼機(jī)制的優(yōu)化研究.pdf

ID:35007078

大?。?.28 MB

頁數(shù):76頁

時(shí)間:2019-03-16

HDFS糾刪碼機(jī)制的優(yōu)化研究.pdf_第1頁
HDFS糾刪碼機(jī)制的優(yōu)化研究.pdf_第2頁
HDFS糾刪碼機(jī)制的優(yōu)化研究.pdf_第3頁
HDFS糾刪碼機(jī)制的優(yōu)化研究.pdf_第4頁
HDFS糾刪碼機(jī)制的優(yōu)化研究.pdf_第5頁
資源描述:

《HDFS糾刪碼機(jī)制的優(yōu)化研究.pdf》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、碩士學(xué)位論文HDFS糾刪碼機(jī)制的優(yōu)化研究RESEARCHONOPTIMIZATIONOFHDFSERASURECODING李大江哈爾濱工業(yè)大學(xué)2018年6月國內(nèi)圖書分類號:TP302.8學(xué)校代碼:10213國際圖書分類號:681.39密級:公開工程碩士學(xué)位論文HDFS糾刪碼機(jī)制的優(yōu)化研究碩士研究生:李大江導(dǎo)師:董劍教授申請學(xué)位:工程碩士學(xué)科:計(jì)算機(jī)技術(shù)所在單位:計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院答辯日期:2018年6月授予學(xué)位單位:哈爾濱工業(yè)大學(xué)ClassifiedIndex:TP302.8U.D.C:681.39DissertationfortheMasterDegreeinEngineeringRE

2、SEARCHONOPTIMIZATIONOFHDFSERASURECODINGCandidate:LiDajiangSupervisor:Prof.DongJianAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2018Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要隨著數(shù)據(jù)量的不斷增長,

3、存儲成本也成倍增加,對存儲系統(tǒng)的經(jīng)濟(jì)性提出了更高的要求,尤其是大型分布式存儲系統(tǒng)。作為最為廣泛使用的分布式存儲系統(tǒng)之一,HDFS在最新的3.0版本中開始支持糾刪碼機(jī)制,這極大地降低了存儲成本,但是受限于糾刪碼本身的特性,與傳統(tǒng)的三副本技術(shù)相比,糾刪碼機(jī)制在進(jìn)行故障恢復(fù)時(shí)需要占用更多的計(jì)算機(jī)資源,恢復(fù)時(shí)間更長,這在大型分布式系統(tǒng)中表現(xiàn)的尤為明顯。HDFS應(yīng)用的糾刪碼技術(shù),主要采用的是里德-所羅門碼(RS),該編碼在進(jìn)行數(shù)據(jù)恢復(fù)時(shí),需要從其他節(jié)點(diǎn)讀取大量數(shù)據(jù)塊。與此同時(shí),HDFS在選擇恢復(fù)所需的數(shù)據(jù)塊時(shí)主要使用隨機(jī)算法,這導(dǎo)致了糾刪碼在讀取等量的數(shù)據(jù)時(shí)將浪費(fèi)更多的時(shí)間。本文將從減少所需要讀取的

4、數(shù)據(jù)塊的數(shù)量和優(yōu)化其塊選擇算法兩個(gè)角度,對HDFS的糾刪碼機(jī)制進(jìn)行一定優(yōu)化,降低恢復(fù)時(shí)間,提高恢復(fù)效率。本文首先對HDFS中現(xiàn)有的糾刪碼機(jī)制進(jìn)行了深入的分析,通過對比實(shí)驗(yàn)的方式,從資源開銷、恢復(fù)時(shí)間等多個(gè)角度,對糾刪碼機(jī)制與傳統(tǒng)的三副本機(jī)制進(jìn)行對比研究。接著,本文基于Piggybacking編碼框架對HDFS采用的RS編碼進(jìn)行了優(yōu)化設(shè)計(jì)和實(shí)現(xiàn),用更細(xì)粒度的條帶組代替原先恢復(fù)時(shí)的單條帶,通過附加信息,有效地減少故障恢復(fù)所需的數(shù)據(jù)塊數(shù)量,從而減少讀取時(shí)間,降低恢復(fù)的時(shí)間成本。然后,本文提出了基于距離的塊選擇算法和基于負(fù)載均衡的塊選擇算法。對于基于距離的塊選擇算法,通過對機(jī)架間帶寬和節(jié)點(diǎn)間距離關(guān)

5、系的分析,將減少機(jī)架間帶寬占用問題轉(zhuǎn)化為選取距離最近點(diǎn)問題,提出按照節(jié)點(diǎn)距離遠(yuǎn)近選取輔助節(jié)點(diǎn)的算法,有效減少了機(jī)架間帶寬傳輸,提高了傳輸?shù)钠骄鶐?;對于基于?fù)載均衡的塊選擇算法,通過對數(shù)據(jù)節(jié)點(diǎn)運(yùn)行狀態(tài)的分析,建立了一個(gè)節(jié)點(diǎn)運(yùn)行狀態(tài)權(quán)重模型,根據(jù)各節(jié)點(diǎn)的權(quán)重值選擇輔助節(jié)點(diǎn),確保選到的節(jié)點(diǎn)負(fù)載相對較輕,降低由于節(jié)點(diǎn)狀態(tài)變化導(dǎo)致數(shù)據(jù)請求無法及時(shí)得到響應(yīng)的情況發(fā)生的概率,提高恢復(fù)成功率。所以,可以根據(jù)自身需求選擇其中一種使用。最后,將修改完成的Hadoop程序與未進(jìn)行修改的Hadoop程序分別部署到集群上。結(jié)合各種負(fù)載和基準(zhǔn)測試用例,通過改變文件大小、節(jié)點(diǎn)配置等方式,進(jìn)行對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明本文

6、提出的優(yōu)化算法確實(shí)能夠提高HDFS糾刪碼機(jī)制的性能,減少故障恢復(fù)時(shí)間。關(guān)鍵詞:HDFS;糾刪碼機(jī)制;編碼優(yōu)化;塊選擇;負(fù)載均衡-I-AbstractAbstractWiththecontinuousincreaseofdatavolume,storagecostshavealsoincreasedexponentially.Thisimposeshigherrequirementsontheeconomicsofstoragesystems,especiallylarge-scaledistributedstoragesystems.Asoneofthemostwidelyuseddist

7、ributedstoragesystems,HDFSbegantosupporttheerasurecodemechanisminthelatestversion3.0,whichgreatlyreducesthestoragecost.However,limitedbythecharacteristicsoftheerasurecodeitself,comparedwiththetraditionalthree-cop

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時(shí)可能會顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。