云計(jì)算hadoop：快速部署hadoop集群

ID：31905760

大?。?47.37 KB

頁(yè)數(shù)：11頁(yè)

時(shí)間：2019-01-26

資源描述：

《云計(jì)算hadoop：快速部署hadoop集群》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、云計(jì)算Hadoop：快速部署Hadoop集群近來(lái)云計(jì)算越來(lái)越熱門了，云計(jì)算已經(jīng)被看作IT業(yè)的新趨勢(shì)。云計(jì)算可以粗略地定義為使用自己環(huán)境之外的某一服務(wù)提供的可伸縮計(jì)算資源，并按使用量付費(fèi)?？梢酝ㄟ^(guò)Internet訪問(wèn)“云”中的任何資源，而不需要擔(dān)心計(jì)算能力、帶寬、存儲(chǔ)、安全性和可靠性等問(wèn)題。　　從企業(yè)的角度來(lái)說(shuō)，日益增長(zhǎng)的信息已經(jīng)很難存儲(chǔ)在標(biāo)準(zhǔn)關(guān)系型數(shù)據(jù)庫(kù)甚至數(shù)據(jù)倉(cāng)庫(kù)中。這些問(wèn)題提到了一些在實(shí)踐中已存在多年的難題。例如：怎樣查詢一個(gè)十億行的表?怎樣跨越數(shù)據(jù)中心所有服務(wù)器上的所有日志來(lái)運(yùn)行一個(gè)查詢?更為復(fù)雜的問(wèn)題是，大量需要處理的數(shù)據(jù)是非結(jié)構(gòu)化或者半結(jié)構(gòu)化的

2、，這就更難查詢了?！　　霸朴?jì)算”領(lǐng)域已經(jīng)成為眾多跨國(guó)IT巨頭未來(lái)“決斗”的主戰(zhàn)場(chǎng)。由于意識(shí)到“云計(jì)算”將是一場(chǎng)改變IT格局的劃時(shí)代變革，幾乎所有重量級(jí)跨國(guó)IT巨頭從不同領(lǐng)域和角度開(kāi)始在“云計(jì)算”領(lǐng)域扎根，這個(gè)陣營(yíng)的主力包括Amazon、Google、IBM、Mircosoft、VMware、Cisoco、Intel、AMD、Oracle、SAP、HP、Dell、Citrix、Redhat、Novell、Yahoo等等。美國(guó)硅谷目前已約有150家涉及“云計(jì)算”的企業(yè)，新的商業(yè)模式層出不窮?！　　霸朴?jì)算”龐大的市場(chǎng)規(guī)模超乎想象。按照最樂(lè)觀估計(jì)，IDC推算未來(lái)

3、3年全球“云計(jì)算”領(lǐng)域?qū)⒂?000億美元的新業(yè)務(wù)收入。顯然，全球各IT巨頭競(jìng)相進(jìn)入“云計(jì)算”領(lǐng)域背后的原因是未來(lái)天文數(shù)字般的市場(chǎng)規(guī)模以及由此帶來(lái)的無(wú)比光明的發(fā)展前景。自2011年開(kāi)始，各大IT企業(yè)已經(jīng)展開(kāi)一場(chǎng)硝煙滾滾的爭(zhēng)奪戰(zhàn)，以實(shí)現(xiàn)自己在“云計(jì)算”市場(chǎng)中未來(lái)的霸主地位?！　adoop簡(jiǎn)介　　ApacheHadoop是一個(gè)軟件框架，它可以分布式地操縱大量數(shù)據(jù)。它于2006年首次提及，由Google、Yahoo!和IBM等公司支持?？梢哉J(rèn)為它是一種PaaS模型?！　∷脑O(shè)計(jì)核心是MapReduce實(shí)現(xiàn)和HDFS(HadoopDistributedFileS

4、ystem)，它們?cè)醋訫apReduce(由一份Google文件引入)和GoogleFileSystem?！　apReduce是Google引入的一個(gè)軟件框架，它支持在計(jì)算機(jī)(即節(jié)點(diǎn))集群上對(duì)大型數(shù)據(jù)集進(jìn)行分布式計(jì)算。它由兩個(gè)過(guò)程組成，映射(Map)和縮減(Reduce)?！　≡谟成溥^(guò)程中，主節(jié)點(diǎn)接收輸入，把輸入分割為更小的子任務(wù)，然后把這些子任務(wù)分布到工作者節(jié)點(diǎn)?！　」ぷ髡吖?jié)點(diǎn)處理這些小任務(wù)，把結(jié)果返回給主節(jié)點(diǎn)?！　∪缓?，在縮減過(guò)程中，主節(jié)點(diǎn)把所有子任務(wù)的結(jié)果組合成輸出，這就是原任務(wù)的結(jié)果。　　MapReduce的優(yōu)點(diǎn)是它允許對(duì)映射和縮減操作進(jìn)行分布

5、式處理。因?yàn)槊總€(gè)映射操作都是獨(dú)立的，所有映射都可以并行執(zhí)行，這會(huì)減少總計(jì)算時(shí)間?！　?duì)外部客戶機(jī)而言，HDFS就像一個(gè)傳統(tǒng)的分級(jí)文件系統(tǒng)?？梢詣?chuàng)建、刪除、移動(dòng)或重命名文件，等等。但是HDFS的架構(gòu)是基于一組特定的節(jié)點(diǎn)構(gòu)建的，這是由它自身的特點(diǎn)決定的。這些節(jié)點(diǎn)包括NameNode(僅一個(gè))，它在HDFS內(nèi)部提供元數(shù)據(jù)服務(wù);DataNode，它為HDFS提供存儲(chǔ)塊。由于僅存在一個(gè)NameNode，因此這是HDFS的一個(gè)缺點(diǎn)(單點(diǎn)失敗)?！　〈鎯?chǔ)在HDFS中的文件被分成塊，然后將這些塊復(fù)制到多個(gè)計(jì)算機(jī)中(DataNode)。這與傳統(tǒng)的RAID架構(gòu)大不相同。塊的

6、大小(通常為64MB)和復(fù)制的塊數(shù)量在創(chuàng)建文件時(shí)由客戶機(jī)決定。NameNode可以控制所有文件操作。HDFS內(nèi)部的所有通信都基于標(biāo)準(zhǔn)的TCP/IP協(xié)議?！　ameNode是一個(gè)通常在HDFS實(shí)例中的單獨(dú)機(jī)器上運(yùn)行的軟件。它負(fù)責(zé)管理文件系統(tǒng)名稱空間和控制外部客戶機(jī)的訪問(wèn)。NameNode決定是否將文件映射到DataNode上的復(fù)制塊上。對(duì)于最常見(jiàn)的3個(gè)復(fù)制塊，第一個(gè)復(fù)制塊存儲(chǔ)在同一機(jī)架的不同節(jié)點(diǎn)上，最后一個(gè)復(fù)制塊存儲(chǔ)在不同機(jī)架的某個(gè)節(jié)點(diǎn)上。注意，這里需要您了解集群架構(gòu)?！　?shí)際的I/O事務(wù)并沒(méi)有經(jīng)過(guò)NameNode，只有表示DataNode和塊的文件映射

7、的元數(shù)據(jù)經(jīng)過(guò)NameNode。當(dāng)外部客戶機(jī)發(fā)送請(qǐng)求要求創(chuàng)建文件時(shí)，NameNode會(huì)以塊標(biāo)識(shí)和該塊的第一個(gè)副本的DataNodeIP地址作為響應(yīng)。這個(gè)NameNode還會(huì)通知其他將要接收該塊的副本的DataNode。　　NameNode在一個(gè)稱為FsImage的文件中存儲(chǔ)所有關(guān)于文件系統(tǒng)名稱空間的信息。這個(gè)文件和一個(gè)包含所有事務(wù)的記錄文件(這里是EditLog)將存儲(chǔ)在NameNode的本地文件系統(tǒng)上。FsImage和EditLog文件也需要復(fù)制副本，以防文件損壞或NameNode系統(tǒng)丟失?！　adoop實(shí)戰(zhàn)　　下面將一步一步演示如何部署一個(gè)5節(jié)點(diǎn)的集

8、群，并測(cè)試一下MapReduce分布式處理的強(qiáng)大功能?！　?、應(yīng)用場(chǎng)景　　接下來(lái)

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 11



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

云計(jì)算hadoop：快速部署hadoop集群

云計(jì)算hadoop：快速部署hadoop集群

相關(guān)文章

相關(guān)標(biāo)簽