hadoop分布式文件系統(tǒng)-架構(gòu)和設(shè)計(jì)要點(diǎn)(翻譯)

hadoop分布式文件系統(tǒng)-架構(gòu)和設(shè)計(jì)要點(diǎn)(翻譯)

ID:18533965

大?。?00.50 KB

頁(yè)數(shù):7頁(yè)

時(shí)間:2018-09-19

hadoop分布式文件系統(tǒng)-架構(gòu)和設(shè)計(jì)要點(diǎn)(翻譯)_第1頁(yè)
hadoop分布式文件系統(tǒng)-架構(gòu)和設(shè)計(jì)要點(diǎn)(翻譯)_第2頁(yè)
hadoop分布式文件系統(tǒng)-架構(gòu)和設(shè)計(jì)要點(diǎn)(翻譯)_第3頁(yè)
hadoop分布式文件系統(tǒng)-架構(gòu)和設(shè)計(jì)要點(diǎn)(翻譯)_第4頁(yè)
hadoop分布式文件系統(tǒng)-架構(gòu)和設(shè)計(jì)要點(diǎn)(翻譯)_第5頁(yè)
資源描述:

《hadoop分布式文件系統(tǒng)-架構(gòu)和設(shè)計(jì)要點(diǎn)(翻譯)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、Hadoop分布式文件系統(tǒng):架構(gòu)和設(shè)計(jì)要點(diǎn)(翻譯)Hadoop分布式文件系統(tǒng):架構(gòu)和設(shè)計(jì)要點(diǎn)(翻譯)一、前提和設(shè)計(jì)目標(biāo)1、硬件錯(cuò)誤是常態(tài),而非異常情況,HDFS可能是有成百上千的server組成,任何一個(gè)組件都有可能一直失效,因此錯(cuò)誤檢測(cè)和快速、自動(dòng)的恢復(fù)是HDFS的核心架構(gòu)目標(biāo)。2、跑在HDFS上的應(yīng)用與一般的應(yīng)用不同,它們主要是以流式讀為主,做批量處理;比之關(guān)注數(shù)據(jù)訪問(wèn)的低延遲問(wèn)題,更關(guān)鍵的在于數(shù)據(jù)訪問(wèn)的高吞吐量。3、HDFS以支持大數(shù)據(jù)集合為目標(biāo),一個(gè)存儲(chǔ)在上面的典型文件大小一般都在千兆至T字節(jié),一個(gè)單一HDFS實(shí)例應(yīng)該能支撐數(shù)以千萬(wàn)計(jì)的文件。4、HD

2、FS應(yīng)用對(duì)文件要求的是write-one-read-many訪問(wèn)模型。一個(gè)文件經(jīng)過(guò)創(chuàng)建、寫(xiě),關(guān)閉之后就不需要改變。這一假設(shè)簡(jiǎn)化了數(shù)據(jù)一致性問(wèn)題,使高吞吐量的數(shù)據(jù)訪問(wèn)成為可能。典型的如MapReduce框架,或者一個(gè)webcrawler應(yīng)用都很適合這個(gè)模型。5、移動(dòng)計(jì)算的代價(jià)比之移動(dòng)數(shù)據(jù)的代價(jià)低。一個(gè)應(yīng)用請(qǐng)求的計(jì)算,離它操作的數(shù)據(jù)越近就越高效,這在數(shù)據(jù)達(dá)到海量級(jí)別的時(shí)候更是如此。將計(jì)算移動(dòng)到數(shù)據(jù)附近,比之將數(shù)據(jù)移動(dòng)到應(yīng)用所在顯然更好,HDFS提供給應(yīng)用這樣的接口。6、在異構(gòu)的軟硬件平臺(tái)間的可移植性。二、Namenode和Datanode???HDFS采用mas

3、ter/slave架構(gòu)。一個(gè)HDFS集群是有一個(gè)Namenode和一定數(shù)目的Datanode組成。Namenode是一個(gè)中心服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的namespace和客戶端對(duì)文件的訪問(wèn)。Datanode在集群中一般是一個(gè)節(jié)點(diǎn)一個(gè),負(fù)責(zé)管理節(jié)點(diǎn)上它們附帶的存儲(chǔ)。在內(nèi)部,一個(gè)文件其實(shí)分成一個(gè)或多個(gè)block,這些block存儲(chǔ)在Datanode集合里。Namenode執(zhí)行文件系統(tǒng)的namespace操作,例如打開(kāi)、關(guān)閉、重命名文件和目錄,同時(shí)決定block到具體Datanode節(jié)點(diǎn)的映射。Datanode在Namenode的指揮下進(jìn)行block的創(chuàng)建、刪除和

4、復(fù)制。Namenode和Datanode都是設(shè)計(jì)成可以跑在普通的廉價(jià)的運(yùn)行l(wèi)inux的機(jī)器上。HDFS采用java語(yǔ)言開(kāi)發(fā),因此可以部署在很大范圍的機(jī)器上。一個(gè)典型的部署場(chǎng)景是一臺(tái)機(jī)器跑一個(gè)單獨(dú)的Namenode節(jié)點(diǎn),集群中的其他機(jī)器各跑一個(gè)Datanode實(shí)例。這個(gè)架構(gòu)并不排除一臺(tái)機(jī)器上跑多個(gè)Datanode,不過(guò)這比較少見(jiàn)。7Hadoop分布式文件系統(tǒng):架構(gòu)和設(shè)計(jì)要點(diǎn)(翻譯)單一節(jié)點(diǎn)的Namenode大大簡(jiǎn)化了系統(tǒng)的架構(gòu)。Namenode負(fù)責(zé)保管和管理所有的HDFS元數(shù)據(jù),因而用戶數(shù)據(jù)就不需要通過(guò)Namenode(也就是說(shuō)文件數(shù)據(jù)的讀寫(xiě)是直接在Datan

5、ode上)。三、文件系統(tǒng)的namespace??HDFS支持傳統(tǒng)的層次型文件組織,與大多數(shù)其他文件系統(tǒng)類似,用戶可以創(chuàng)建目錄,并在其間創(chuàng)建、刪除、移動(dòng)和重命名文件。HDFS不支持userquotas和訪問(wèn)權(quán)限,也不支持鏈接(link),不過(guò)當(dāng)前的架構(gòu)并不排除實(shí)現(xiàn)這些特性。Namenode維護(hù)文件系統(tǒng)的namespace,任何對(duì)文件系統(tǒng)namespace和文件屬性的修改都將被Namenode記錄下來(lái)。應(yīng)用可以設(shè)置HDFS保存的文件的副本數(shù)目,文件副本的數(shù)目稱為文件的replication因子,這個(gè)信息也是由Namenode保存。四、數(shù)據(jù)復(fù)制???HDFS被設(shè)計(jì)

6、成在一個(gè)大集群中可以跨機(jī)器地可靠地存儲(chǔ)海量的文件。它將每個(gè)文件存儲(chǔ)成block序列,除了最后一個(gè)block,所有的block都是同樣的大小。文件的所有block為了容錯(cuò)都會(huì)被復(fù)制。每個(gè)文件的block大小和replication因子都是可配置的。Replication因子可以在文件創(chuàng)建的時(shí)候配置,以后也可以改變。HDFS中的文件是write-one,并且嚴(yán)格要求在任何時(shí)候只有一個(gè)writer。Namenode全權(quán)管理block的復(fù)制,它周期性地從集群中的每個(gè)Datanode接收心跳包和一個(gè)Blockreport。心跳包的接收表示該Datanode節(jié)點(diǎn)正常工作

7、,而B(niǎo)lockreport包括了該Datanode上所有的block組成的列表。7Hadoop分布式文件系統(tǒng):架構(gòu)和設(shè)計(jì)要點(diǎn)(翻譯)1、副本的存放,副本的存放是HDFS可靠性和性能的關(guān)鍵。HDFS采用一種稱為rack-aware的策略來(lái)改進(jìn)數(shù)據(jù)的可靠性、有效性和網(wǎng)絡(luò)帶寬的利用。這個(gè)策略實(shí)現(xiàn)的短期目標(biāo)是驗(yàn)證在生產(chǎn)環(huán)境下的表現(xiàn),觀察它的行為,構(gòu)建測(cè)試和研究的基礎(chǔ),以便實(shí)現(xiàn)更先進(jìn)的策略。龐大的HDFS實(shí)例一般運(yùn)行在多個(gè)機(jī)架的計(jì)算機(jī)形成的集群上,不同機(jī)架間的兩臺(tái)機(jī)器的通訊需要通過(guò)交換機(jī),顯然通常情況下,同一個(gè)機(jī)架內(nèi)的兩個(gè)節(jié)點(diǎn)間的帶寬會(huì)比不同機(jī)架間的兩臺(tái)機(jī)器的帶寬大。

8、???通過(guò)一個(gè)稱為RackAwareness的過(guò)程,

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。