資源描述:
《hadoop分布式資料系統(tǒng):架構(gòu)和設(shè)計方案》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、目錄一、引言1二、前提和設(shè)計目標(biāo)1矚慫潤厲釤瘞睞櫪廡賴。2.1硬件錯誤1聞創(chuàng)溝燴鐺險愛氌譴凈。2.2流式數(shù)據(jù)訪問1殘騖樓諍錈瀨濟溆塹籟。2.3大規(guī)模數(shù)據(jù)集1釅錒極額閉鎮(zhèn)檜豬訣錐。2.4簡單的一致性模型2彈貿(mào)攝爾霽斃攬磚鹵廡。2.5“移動計算比移動數(shù)據(jù)更劃算”2謀蕎摶篋飆鐸懟類蔣薔。2.5異構(gòu)軟硬件平臺間的可移植性2廈礴懇蹣駢時盡繼價騷。三、Namenode和Datanode2煢楨廣鰳鯡選塊網(wǎng)羈淚。四、文件系統(tǒng)的名字空間(namespace)3鵝婭盡損鵪慘歷蘢鴛賴。五、數(shù)據(jù)復(fù)制4籟叢媽羥為贍僨蟶練淨(jìng)。5.1副本存放:最最開始的一步4
2、預(yù)頌圣鉉儐歲齦訝驊糴。5.2副本選擇5滲釤嗆儼勻諤鱉調(diào)硯錦。5.3安全模式5鐃誅臥瀉噦圣騁貺頂廡。六、文件系統(tǒng)元數(shù)據(jù)的持久化6擁締鳳襪備訊顎輪爛薔。七、通訊協(xié)議7贓熱俁閫歲匱閶鄴鎵騷。八、健壯性7壇摶鄉(xiāng)囂懺蔞鍥鈴氈淚。8.1磁盤數(shù)據(jù)錯誤、心跳檢測和重新復(fù)制7蠟變黲癟報倀鉉錨鈰贅。8.2集群均衡7買鯛鴯譖曇膚遙閆擷凄。8.3數(shù)據(jù)完整性8綾鏑鯛駕櫬鶘蹤韋轔糴。8.4元數(shù)據(jù)磁盤錯誤8驅(qū)躓髏彥浹綏譎飴憂錦。8.5快照8貓蠆驢繪燈鮒誅髏貺廡。九、數(shù)據(jù)組織9鍬籟饗逕瑣筆襖鷗婭薔。9.1數(shù)據(jù)塊9構(gòu)氽頑黌碩飩薺齦話騖。9.2Staging9輒嶧陽
3、檉籪癤網(wǎng)儂號澩。9.3流水線復(fù)制9堯側(cè)閆繭絳闕絢勵蜆贅。十、可訪問性10識饒鎂錕縊灩筧嚌儼淒。10.1DFSShell10凍鈹鋨勞臘鍇癇婦脛糴。10.2DFSAdmin10恥諤銪滅縈歡煬鞏鶩錦。10.3瀏覽器接口11鯊腎鑰詘褳鉀溈懼統(tǒng)庫。十一、存儲空間回收11碩癘鄴頏謅攆檸攜驤蘞。11.1文件的刪除和恢復(fù)11閿擻輳嬪諫遷擇楨秘騖。11.2減少副本系數(shù)11氬嚕躑竄貿(mào)懇彈瀘頷澩。十二、參考資料12釷鵒資贏車贖孫滅獅贅。12一、引言Hadoop分布式文件系統(tǒng)(HDFS)被設(shè)計成適合運行在通用硬件(commodityhardware)上的
4、分布式文件系統(tǒng)。它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點。但同時,它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。HDFS是一個高度容錯性的系統(tǒng),適合部署在廉價的機器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS放寬了一部分POSIX約束,來實現(xiàn)流式讀取文件系統(tǒng)數(shù)據(jù)的目的。HDFS在最開始是作為ApacheNutch搜索引擎項目的基礎(chǔ)架構(gòu)而開發(fā)的。HDFS是ApacheHadoopCore項目的一部分。這個項目的地址是http://hadoop.apache.org/core/。慫闡譜鯪逕導(dǎo)嘯畫長涼。二、前提
5、和設(shè)計目標(biāo)2.1硬件錯誤硬件錯誤是常態(tài)而不是異常。HDFS可能由成百上千的服務(wù)器所構(gòu)成,每個服務(wù)器上存儲著文件系統(tǒng)的部分?jǐn)?shù)據(jù)。我們面對的現(xiàn)實是構(gòu)成系統(tǒng)的組件數(shù)目是巨大的,而且任一組件都有可能失效,這意味著總是有一部分HDFS的組件是不工作的。因此錯誤檢測和快速、自動的恢復(fù)是HDFS最核心的架構(gòu)目標(biāo)。諺辭調(diào)擔(dān)鈧諂動禪瀉類。2.2流式數(shù)據(jù)訪問運行在HDFS上的應(yīng)用和普通的應(yīng)用不同,需要流式訪問它們的數(shù)據(jù)集。HDFS的設(shè)計中更多的考慮到了數(shù)據(jù)批處理,而不是用戶交互處理。比之?dāng)?shù)據(jù)訪問的低延遲問題,更關(guān)鍵的在于數(shù)據(jù)訪問的高吞吐量。POSIX
6、標(biāo)準(zhǔn)設(shè)置的很多硬性約束對HDFS應(yīng)用系統(tǒng)不是必需的。為了提高數(shù)據(jù)的吞吐量,在一些關(guān)鍵方面對POSIX的語義做了一些修改。嘰覲詿縲鐋囁偽純鉿錈。2.3大規(guī)模數(shù)據(jù)集12運行在HDFS上的應(yīng)用具有很大的數(shù)據(jù)集。HDFS上的一個典型文件大小一般都在G字節(jié)至T字節(jié)。因此,HDFS被調(diào)節(jié)以支持大文件存儲。它應(yīng)該能提供整體上高的數(shù)據(jù)傳輸帶寬,能在一個集群里擴展到數(shù)百個節(jié)點。一個單一的HDFS實例應(yīng)該能支撐數(shù)以千萬計的文件。熒紿譏鉦鏌觶鷹緇機庫。2.4簡單的一致性模型HDFS應(yīng)用需要一個“一次寫入多次讀取”的文件訪問模型。一個文件經(jīng)過創(chuàng)建、寫入和
7、關(guān)閉之后就不需要改變。這一假設(shè)簡化了數(shù)據(jù)一致性問題,并且使高吞吐量的數(shù)據(jù)訪問成為可能。Map/Reduce應(yīng)用或者網(wǎng)絡(luò)爬蟲應(yīng)用都非常適合這個模型。目前還有計劃在將來擴充這個模型,使之支持文件的附加寫操作。鶼漬螻偉閱劍鯫腎邏蘞。2.5“移動計算比移動數(shù)據(jù)更劃算”一個應(yīng)用請求的計算,離它操作的數(shù)據(jù)越近就越高效,在數(shù)據(jù)達到海量級別的時候更是如此。因為這樣就能降低網(wǎng)絡(luò)阻塞的影響,提高系統(tǒng)數(shù)據(jù)的吞吐量。將計算移動到數(shù)據(jù)附近,比之將數(shù)據(jù)移動到應(yīng)用所在顯然更好。HDFS為應(yīng)用提供了將它們自己移動到數(shù)據(jù)附近的接口。紂憂蔣氳頑薟驅(qū)藥憫騖。2.5異構(gòu)
8、軟硬件平臺間的可移植性HDFS在設(shè)計的時候就考慮到平臺的可移植性。這種特性方便了HDFS作為大規(guī)模數(shù)據(jù)應(yīng)用平臺的推廣。三、Namenode和DatanodeHDFS采用master/slave架構(gòu)。一個HDFS集群是由一個Namenode和一定數(shù)目