云計算hadoop:快速部署hadoop集群

云計算hadoop:快速部署hadoop集群

ID:31905760

大?。?47.37 KB

頁數(shù):11頁

時間:2019-01-26

云計算hadoop:快速部署hadoop集群_第1頁
云計算hadoop:快速部署hadoop集群_第2頁
云計算hadoop:快速部署hadoop集群_第3頁
云計算hadoop:快速部署hadoop集群_第4頁
云計算hadoop:快速部署hadoop集群_第5頁
資源描述:

《云計算hadoop:快速部署hadoop集群》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、云計算Hadoop:快速部署Hadoop集群近來云計算越來越熱門了,云計算已經(jīng)被看作IT業(yè)的新趨勢。云計算可以粗略地定義為使用自己環(huán)境之外的某一服務(wù)提供的可伸縮計算資源,并按使用量付費??梢酝ㄟ^Internet訪問“云”中的任何資源,而不需要擔(dān)心計算能力、帶寬、存儲、安全性和可靠性等問題?! 钠髽I(yè)的角度來說,日益增長的信息已經(jīng)很難存儲在標準關(guān)系型數(shù)據(jù)庫甚至數(shù)據(jù)倉庫中。這些問題提到了一些在實踐中已存在多年的難題。例如:怎樣查詢一個十億行的表?怎樣跨越數(shù)據(jù)中心所有服務(wù)器上的所有日志來運行一個查詢?更為復(fù)雜的問題是,大量需要處理的數(shù)據(jù)是非結(jié)構(gòu)化或者半結(jié)構(gòu)化的

2、,這就更難查詢了?!  霸朴嬎恪鳖I(lǐng)域已經(jīng)成為眾多跨國IT巨頭未來“決斗”的主戰(zhàn)場。由于意識到“云計算”將是一場改變IT格局的劃時代變革,幾乎所有重量級跨國IT巨頭從不同領(lǐng)域和角度開始在“云計算”領(lǐng)域扎根,這個陣營的主力包括Amazon、Google、IBM、Mircosoft、VMware、Cisoco、Intel、AMD、Oracle、SAP、HP、Dell、Citrix、Redhat、Novell、Yahoo等等。美國硅谷目前已約有150家涉及“云計算”的企業(yè),新的商業(yè)模式層出不窮。  “云計算”龐大的市場規(guī)模超乎想象。按照最樂觀估計,IDC推算未來

3、3年全球“云計算”領(lǐng)域?qū)⒂?000億美元的新業(yè)務(wù)收入。顯然,全球各IT巨頭競相進入“云計算”領(lǐng)域背后的原因是未來天文數(shù)字般的市場規(guī)模以及由此帶來的無比光明的發(fā)展前景。自2011年開始,各大IT企業(yè)已經(jīng)展開一場硝煙滾滾的爭奪戰(zhàn),以實現(xiàn)自己在“云計算”市場中未來的霸主地位?! adoop簡介  ApacheHadoop是一個軟件框架,它可以分布式地操縱大量數(shù)據(jù)。它于2006年首次提及,由Google、Yahoo!和IBM等公司支持??梢哉J為它是一種PaaS模型?! ∷脑O(shè)計核心是MapReduce實現(xiàn)和HDFS(HadoopDistributedFileS

4、ystem),它們源自MapReduce(由一份Google文件引入)和GoogleFileSystem。  MapReduce是Google引入的一個軟件框架,它支持在計算機(即節(jié)點)集群上對大型數(shù)據(jù)集進行分布式計算。它由兩個過程組成,映射(Map)和縮減(Reduce)?! ≡谟成溥^程中,主節(jié)點接收輸入,把輸入分割為更小的子任務(wù),然后把這些子任務(wù)分布到工作者節(jié)點?! 」ぷ髡吖?jié)點處理這些小任務(wù),把結(jié)果返回給主節(jié)點?! ∪缓?,在縮減過程中,主節(jié)點把所有子任務(wù)的結(jié)果組合成輸出,這就是原任務(wù)的結(jié)果?! apReduce的優(yōu)點是它允許對映射和縮減操作進行分布

5、式處理。因為每個映射操作都是獨立的,所有映射都可以并行執(zhí)行,這會減少總計算時間?! ν獠靠蛻魴C而言,HDFS就像一個傳統(tǒng)的分級文件系統(tǒng)??梢詣?chuàng)建、刪除、移動或重命名文件,等等。但是HDFS的架構(gòu)是基于一組特定的節(jié)點構(gòu)建的,這是由它自身的特點決定的。這些節(jié)點包括NameNode(僅一個),它在HDFS內(nèi)部提供元數(shù)據(jù)服務(wù);DataNode,它為HDFS提供存儲塊。由于僅存在一個NameNode,因此這是HDFS的一個缺點(單點失敗)?! 〈鎯υ贖DFS中的文件被分成塊,然后將這些塊復(fù)制到多個計算機中(DataNode)。這與傳統(tǒng)的RAID架構(gòu)大不相同。塊的

6、大小(通常為64MB)和復(fù)制的塊數(shù)量在創(chuàng)建文件時由客戶機決定。NameNode可以控制所有文件操作。HDFS內(nèi)部的所有通信都基于標準的TCP/IP協(xié)議?! ameNode是一個通常在HDFS實例中的單獨機器上運行的軟件。它負責(zé)管理文件系統(tǒng)名稱空間和控制外部客戶機的訪問。NameNode決定是否將文件映射到DataNode上的復(fù)制塊上。對于最常見的3個復(fù)制塊,第一個復(fù)制塊存儲在同一機架的不同節(jié)點上,最后一個復(fù)制塊存儲在不同機架的某個節(jié)點上。注意,這里需要您了解集群架構(gòu)。  實際的I/O事務(wù)并沒有經(jīng)過NameNode,只有表示DataNode和塊的文件映射

7、的元數(shù)據(jù)經(jīng)過NameNode。當(dāng)外部客戶機發(fā)送請求要求創(chuàng)建文件時,NameNode會以塊標識和該塊的第一個副本的DataNodeIP地址作為響應(yīng)。這個NameNode還會通知其他將要接收該塊的副本的DataNode。  NameNode在一個稱為FsImage的文件中存儲所有關(guān)于文件系統(tǒng)名稱空間的信息。這個文件和一個包含所有事務(wù)的記錄文件(這里是EditLog)將存儲在NameNode的本地文件系統(tǒng)上。FsImage和EditLog文件也需要復(fù)制副本,以防文件損壞或NameNode系統(tǒng)丟失?! adoop實戰(zhàn)  下面將一步一步演示如何部署一個5節(jié)點的集

8、群,并測試一下MapReduce分布式處理的強大功能。  1、應(yīng)用場景  接下來

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。