hadoop分布式文件系統(tǒng)副本策略的優(yōu)化研究

hadoop分布式文件系統(tǒng)副本策略的優(yōu)化研究

ID:26598270

大?。?.08 MB

頁(yè)數(shù):75頁(yè)

時(shí)間:2018-11-27

hadoop分布式文件系統(tǒng)副本策略的優(yōu)化研究_第1頁(yè)
hadoop分布式文件系統(tǒng)副本策略的優(yōu)化研究_第2頁(yè)
hadoop分布式文件系統(tǒng)副本策略的優(yōu)化研究_第3頁(yè)
hadoop分布式文件系統(tǒng)副本策略的優(yōu)化研究_第4頁(yè)
hadoop分布式文件系統(tǒng)副本策略的優(yōu)化研究_第5頁(yè)
資源描述:

《hadoop分布式文件系統(tǒng)副本策略的優(yōu)化研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、·第1章引言第1章引言1.1課題的研究背景與意義如今,國(guó)內(nèi)外大型公司每天產(chǎn)生TB級(jí)的數(shù)據(jù)量已很平常[1][2],單個(gè)磁盤、磁盤冗余陣列技術(shù)(RedundantArraysofIndependentDisks,RAID)[3]、網(wǎng)絡(luò)連接存儲(chǔ)技術(shù)(NetworkAttachedStorage,NAS)[4]與存儲(chǔ)區(qū)域網(wǎng)絡(luò)(StorageAreaNetwork,SAN)[5]不足以支撐如此龐大的數(shù)據(jù)存儲(chǔ)與處理,云存儲(chǔ)的概念應(yīng)運(yùn)而生。云存儲(chǔ)將網(wǎng)絡(luò)中類型、性能各異的存儲(chǔ)介質(zhì)通過(guò)集群、網(wǎng)格技術(shù)等手段融合起來(lái),對(duì)外形成統(tǒng)一的應(yīng)用接口,使用戶不需要考慮內(nèi)部構(gòu)成的復(fù)雜性而能獲得強(qiáng)大的數(shù)據(jù)存

2、儲(chǔ)服務(wù)[6][7];此外,云存儲(chǔ)為云計(jì)算提供了重要的數(shù)據(jù)存儲(chǔ)支撐[8][9]。分布式文件系統(tǒng)是云存儲(chǔ)功能實(shí)現(xiàn)的基礎(chǔ)。目前,有多款功能強(qiáng)大的分布式文件系統(tǒng)被工業(yè)界、學(xué)術(shù)界所使用或研究[10-13],如Hadoop,GFS,Ceph,Lustre。其中Hadoop以其良好的可擴(kuò)展性、穩(wěn)定性、高可靠性以及可在廉價(jià)機(jī)器上部署運(yùn)行等特性,迅速成為業(yè)界認(rèn)可的主流分布式文件系統(tǒng)。雅虎、Facebook、百度、淘寶等國(guó)內(nèi)外知名大公司紛紛使用Hadoop作為其重要業(yè)務(wù)的技術(shù)支撐[14]。2013年Wandisco推出了世界第一款可用于實(shí)際業(yè)務(wù)環(huán)境的ApacheHadoop2-WANdisc

3、oDistro[15],使得Hadoop在現(xiàn)實(shí)環(huán)境的應(yīng)用中更進(jìn)一步。因此對(duì)Hadoop分布式文件系統(tǒng)開展研究工作,能對(duì)云存儲(chǔ)、云計(jì)算技術(shù)的發(fā)展提供文件系統(tǒng)層的支持。在分布式文件系統(tǒng)中,良好的副本策略能有效提高各服務(wù)器之間的相互協(xié)作能力,加強(qiáng)資源的合理分配及利用,以此來(lái)提升分布式文件系統(tǒng)的服務(wù)質(zhì)量[16]。目前大多數(shù)分布式文件系統(tǒng)均采用了多副本的冗余策略保證副本的可靠性,然而這些分布式文件系統(tǒng)對(duì)于副本的存儲(chǔ)位置并未進(jìn)行太多規(guī)劃。如本文所研究的Hadoop系統(tǒng),其默認(rèn)的副本策略的設(shè)計(jì)基于節(jié)點(diǎn)硬件性能同構(gòu)的基礎(chǔ)之上,采用三副本冗余機(jī)制保證數(shù)據(jù)的安全性,在選取副本存儲(chǔ)節(jié)點(diǎn)時(shí)采用隨

4、機(jī)算法,并將三副本盡量放在不同機(jī)架上以保證數(shù)據(jù)的可靠性[17]。通過(guò)這種簡(jiǎn)單的方式為數(shù)據(jù)存儲(chǔ)及MapReduce的計(jì)算功能提供支撐,但隨著Hadoop應(yīng)用的深入,集群所面臨的環(huán)境更加復(fù)雜多樣,現(xiàn)實(shí)集群環(huán)境中節(jié)點(diǎn)計(jì)算機(jī)硬件性能的異構(gòu)、1···華僑大學(xué)碩士學(xué)位論文數(shù)據(jù)文件的訪問(wèn)規(guī)律、應(yīng)用數(shù)據(jù)的多樣化等常見現(xiàn)象都未被給予重視。這將可能導(dǎo)致默認(rèn)副本策略不能為存儲(chǔ)系統(tǒng)提供優(yōu)化的IO性能,也無(wú)法為上層的MapReduce應(yīng)用提供合理的數(shù)據(jù)分布而導(dǎo)致MapReduce計(jì)算性能的下降。因此對(duì)集群環(huán)境中HDFS副本放置策略進(jìn)行優(yōu)化研究,對(duì)于云存儲(chǔ)和云計(jì)算的現(xiàn)實(shí)應(yīng)用具有重要的意義。本文最終將

5、研究的焦點(diǎn)定位于Hadoop分布式文件系統(tǒng)的副本放置策略的研究中,旨在通過(guò)對(duì)副本放置策略的優(yōu)化,推動(dòng)整體分布式文件系統(tǒng)性能的提升。1.1國(guó)內(nèi)外相關(guān)研究工作數(shù)據(jù)副本放置策略的研究一直是存儲(chǔ)系統(tǒng)性能優(yōu)化研究的熱門方向。網(wǎng)絡(luò)存儲(chǔ)、數(shù)據(jù)網(wǎng)格等領(lǐng)域的研究工作借鑒了“緩存-主存-磁盤”這種多層次的計(jì)算機(jī)存儲(chǔ)結(jié)構(gòu),把焦點(diǎn)放在緩存的利用上。如文獻(xiàn)[18]提出根據(jù)不同類型應(yīng)用對(duì)于緩存命中率的要求計(jì)算所需的緩存空間并對(duì)剩余緩存空間進(jìn)行按所需比例分配。文獻(xiàn)[19]提出的副本策略是在資源點(diǎn)與客戶端通訊的路徑上沿路緩存數(shù)據(jù)副本,并將客戶端的訪問(wèn)延時(shí)和服務(wù)器的負(fù)載作為衡量指標(biāo)以確定副本的數(shù)量和在網(wǎng)絡(luò)

6、中的存儲(chǔ)節(jié)點(diǎn)位置。文獻(xiàn)[20][21]將副本緩存組成緩存樹的形式,通過(guò)樹形緩存副本放置策略,緩解大量客戶端同時(shí)訪問(wèn)單個(gè)服務(wù)器造成的“熱點(diǎn)問(wèn)題”,有效降低根節(jié)點(diǎn)資源服務(wù)器的壓力,同時(shí)對(duì)于數(shù)據(jù)請(qǐng)求的傳播也只會(huì)在緩存樹的局部產(chǎn)生,減輕緩存樹中的帶寬壓力。文獻(xiàn)[21]還引進(jìn)一致性哈希算法,在節(jié)點(diǎn)性能與存儲(chǔ)能力相似的集群環(huán)境中將數(shù)據(jù)副本均勻分布在緩存中,并動(dòng)態(tài)地適應(yīng)緩存節(jié)點(diǎn)數(shù)量的變化。特別針對(duì)Hadoop默認(rèn)三副本策略進(jìn)行優(yōu)化的研究工作也有諸多,有的致力于減小系統(tǒng)存儲(chǔ)空間開銷并且增加訪問(wèn)并行性,有的旨在提高存儲(chǔ)系統(tǒng)IO性能或集群計(jì)算性能。這些研究工作一般從三方面進(jìn)行:(1)冗余方式

7、的選擇,(2)副本的配置(replicaallocation),(3)副本的放置(replicaplacement)。在冗余方式的選擇上,有研究者以減小系統(tǒng)存儲(chǔ)冗余開銷為目的,將完全副本存儲(chǔ)方式改變成編碼存儲(chǔ)方式,如HDFS-RAID[22]根據(jù)文件熱度將冷數(shù)據(jù)副本通過(guò)編碼方式存儲(chǔ)。SCR[23]根據(jù)文件類型的不同,將HDFS的副本通過(guò)RAID5的方式進(jìn)行存儲(chǔ),并設(shè)置不同的條帶方式。DiskReduce[24][25]通過(guò)對(duì)YahooM45分布式集群數(shù)據(jù)訪問(wèn)特征的統(tǒng)計(jì),針對(duì)大部分?jǐn)?shù)據(jù)的訪問(wèn)特征將數(shù)據(jù)按訪問(wèn)頻2···第1章引言率

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。