學(xué)習(xí)hadoop第一步初識(shí)hadoop

學(xué)習(xí)hadoop第一步初識(shí)hadoop

ID:12878780

大小:244.62 KB

頁(yè)數(shù):25頁(yè)

時(shí)間:2018-07-19

學(xué)習(xí)hadoop第一步初識(shí)hadoop_第1頁(yè)
學(xué)習(xí)hadoop第一步初識(shí)hadoop_第2頁(yè)
學(xué)習(xí)hadoop第一步初識(shí)hadoop_第3頁(yè)
學(xué)習(xí)hadoop第一步初識(shí)hadoop_第4頁(yè)
學(xué)習(xí)hadoop第一步初識(shí)hadoop_第5頁(yè)
資源描述:

《學(xué)習(xí)hadoop第一步初識(shí)hadoop》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)

1、1初識(shí)Hadoop1.1MapReduce模型介紹11.2Hadoop介紹31.2.1Hadoop的核心MapReduce41.2.2Hadoop的分布式文件系統(tǒng)51.3安裝Hadoop51.3.1安裝的前提條件51.3.2安裝Hadoop111.3.3檢查你的環(huán)境111.4執(zhí)行和測(cè)試Hadoop樣例程序161.4.1執(zhí)行PI計(jì)算器161.4.2查看輸出:輸入分割,混淆,溢出和排序171.4.3測(cè)試Hadoop211.5解決問(wèn)題221.6總結(jié)23單個(gè)低端硬件通常不能滿足應(yīng)用程序?qū)Y源的需求。許多企業(yè)發(fā)現(xiàn)安裝他們使用的業(yè)務(wù)軟件的計(jì)算機(jī)并不具有較好的性價(jià)比。對(duì)于他們來(lái)說(shuō),一個(gè)簡(jiǎn)單的解決方案就是購(gòu)買

2、具有更多內(nèi)存和CPU的高端硬件,這通常需要巨額資金。只要你能買到最高端的硬件,這個(gè)解決方案能夠達(dá)到理想的效果,但是通常來(lái)說(shuō),預(yù)算是最主要的問(wèn)題。我們有另外一個(gè)可選方案,那就是構(gòu)建一個(gè)高性能的集群。一個(gè)集群能夠模擬成為一個(gè)單個(gè)計(jì)算機(jī),然而,它需要專業(yè)的安裝和管理服務(wù)。現(xiàn)今,存在著許多專有的高性能的并且造價(jià)昂貴的集群。幸運(yùn)的是,一個(gè)更經(jīng)濟(jì)的解決方案是通過(guò)云計(jì)算來(lái)獲得必要的計(jì)算資源。這里是一個(gè)典型的應(yīng)用場(chǎng)景,你需要處理一大批數(shù)據(jù),這些數(shù)據(jù)分成若干個(gè)項(xiàng),項(xiàng)與項(xiàng)之間不存在依賴關(guān)系,因此,你可以使用單指令多數(shù)據(jù)(SIMD)算法。Hadoop核心提供了云計(jì)算的開源框架和一個(gè)分布式文件系統(tǒng)。Hadoop是阿帕

3、奇軟件基金下的一個(gè)著名的項(xiàng)目。本文介紹了Hadoop核心,講述了如何安裝和運(yùn)行Hadoop。1.1MapReduce模型介紹Hadoop完全支持MapReduce模型,MapReduce模型是谷歌公司為了在廉價(jià)的計(jì)算機(jī)集群上處理以P數(shù)量級(jí)計(jì)算的大數(shù)據(jù)集而提出的一個(gè)解決方案。這個(gè)解決方案把解決問(wèn)題分成兩個(gè)不同的步驟:Map:初始化數(shù)據(jù)的讀入和轉(zhuǎn)換,在此期間,框架對(duì)互不依賴的輸入記錄進(jìn)行并行處理。Reduce:處理數(shù)據(jù)的組合和抽樣,有關(guān)聯(lián)的數(shù)據(jù)必須通過(guò)一個(gè)模塊進(jìn)行集中處理。Hadoop中MapReduce的核心概念是把輸入的數(shù)據(jù)分成不同的邏輯塊,Map任務(wù)首先并行的對(duì)每一塊進(jìn)行單獨(dú)的處理。這些邏輯

4、塊的處理結(jié)果會(huì)被重新組合成不同的排序的集合,這些集合最后由Reduce任務(wù)進(jìn)行處理。一個(gè)Map任務(wù)可以執(zhí)行在集群中的任何一個(gè)計(jì)算機(jī)節(jié)點(diǎn)上。多個(gè)Map任務(wù)可以并行的執(zhí)行在集群中的多個(gè)節(jié)點(diǎn)上。Map任務(wù)負(fù)責(zé)轉(zhuǎn)換輸入記錄成為名值對(duì)。所有Map任務(wù)的輸出會(huì)被重新組合成多個(gè)排序的集合,這里面的每一個(gè)排序的集合會(huì)被派發(fā)給一個(gè)單獨(dú)的Reduce任務(wù)。Reduce任務(wù)會(huì)對(duì)集合中排序的關(guān)鍵字和關(guān)聯(lián)在關(guān)鍵字的多個(gè)數(shù)據(jù)值進(jìn)行處理。Reduce任務(wù)也是并行的運(yùn)行在集群中的不同節(jié)點(diǎn)上的。應(yīng)用程序開發(fā)人員僅僅需要提供4項(xiàng)輸入信息給Hadoop框架:讀取和轉(zhuǎn)換輸入記錄到鍵值對(duì)的作業(yè)類,一個(gè)Map方法,一個(gè)Reduce方法和

5、一個(gè)轉(zhuǎn)換鍵值對(duì)到輸出記錄的Reduce任務(wù)類。我的第一個(gè)MapReduce應(yīng)用程序是一個(gè)專業(yè)的網(wǎng)絡(luò)爬蟲。這個(gè)爬蟲接受大量的網(wǎng)頁(yè)地址,然后讀取和處理網(wǎng)頁(yè)地址的內(nèi)容。因?yàn)檫@個(gè)應(yīng)用要處理大量的網(wǎng)頁(yè)地址,所以獲取他們的內(nèi)容是極其浪費(fèi)時(shí)間和資源的。整個(gè)處理流程包含一下幾個(gè)步驟,1.輸入網(wǎng)頁(yè)地址和獲得網(wǎng)頁(yè)地址關(guān)聯(lián)的元數(shù)據(jù)。2.規(guī)格化網(wǎng)頁(yè)地址。3.排除重復(fù)的網(wǎng)頁(yè)地址。4.通過(guò)預(yù)定義的排除和包含過(guò)濾器過(guò)濾網(wǎng)頁(yè)地址。5.通過(guò)預(yù)定義的非取內(nèi)容列表過(guò)濾網(wǎng)頁(yè)地址。6.通過(guò)預(yù)定義最近已看列表過(guò)濾網(wǎng)頁(yè)地址。7.獲取網(wǎng)頁(yè)地址內(nèi)容。8.標(biāo)志網(wǎng)頁(yè)地址內(nèi)容。9.更新最近已看列表。10.為下一個(gè)應(yīng)用程序準(zhǔn)備工作列表。在這個(gè)項(xiàng)目中,

6、我有20個(gè)機(jī)器可以使用。這個(gè)應(yīng)用程序原來(lái)的實(shí)現(xiàn)是非常復(fù)雜的,它使用了一個(gè)開源分布式隊(duì)列框架,它的效率非常低。因?yàn)?,我花費(fèi)了大量的時(shí)間在開發(fā)應(yīng)用程序和對(duì)應(yīng)用程序進(jìn)行調(diào)優(yōu)。因此,這個(gè)項(xiàng)目瀕臨失敗。隨后,其他團(tuán)隊(duì)的一個(gè)成員建議我使用Hadoop。我花費(fèi)了一整天的時(shí)間建立了一個(gè)具有20臺(tái)機(jī)器的Hadoop集群,接下來(lái),試驗(yàn)性的執(zhí)行了它的樣例程序以后,我的團(tuán)隊(duì)花了幾個(gè)小時(shí)的時(shí)間想出了一個(gè)解決方案,在這個(gè)解決方案中包含了九個(gè)Map方法和三個(gè)Reduce方法。目標(biāo)是每一個(gè)Map和Reduce方法不能超過(guò)100行的代碼量。那一周結(jié)束后,我們實(shí)現(xiàn)的基于Hadoop的應(yīng)用程序就已經(jīng)比原來(lái)的實(shí)現(xiàn)更快和更穩(wěn)定。使用H

7、adoop能夠很容易的把分布式應(yīng)用程序并行的運(yùn)行在集群上,集群上的一個(gè)節(jié)點(diǎn)的失敗不會(huì)影響其他節(jié)點(diǎn)的操作,一個(gè)作業(yè)在一個(gè)節(jié)點(diǎn)上的失敗,Hadoop會(huì)分配其他的節(jié)點(diǎn)進(jìn)行重試,因?yàn)檫@些優(yōu)點(diǎn),Hadoop已經(jīng)成為我最喜歡的開發(fā)工具之一。谷歌和雅虎都是用MapReduce集群來(lái)處理以P數(shù)量級(jí)計(jì)算的大數(shù)據(jù)集。在2008年初,谷歌宣布它每天通過(guò)MapReduce處理20P的數(shù)據(jù),請(qǐng)參考http://google

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。