基于hadoop2.0并行數(shù)據(jù)處理應(yīng)用

基于hadoop2.0并行數(shù)據(jù)處理應(yīng)用

ID:11623998

大?。?67.67 KB

頁數(shù):27頁

時(shí)間:2018-07-13

基于hadoop2.0并行數(shù)據(jù)處理應(yīng)用_第1頁
基于hadoop2.0并行數(shù)據(jù)處理應(yīng)用_第2頁
基于hadoop2.0并行數(shù)據(jù)處理應(yīng)用_第3頁
基于hadoop2.0并行數(shù)據(jù)處理應(yīng)用_第4頁
基于hadoop2.0并行數(shù)據(jù)處理應(yīng)用_第5頁
資源描述:

《基于hadoop2.0并行數(shù)據(jù)處理應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、電子科技大學(xué)成都學(xué)院云計(jì)算系實(shí)踐專周設(shè)計(jì)報(bào)告課程名稱:基于Hadoop2.0并行數(shù)據(jù)處理應(yīng)用指導(dǎo)教師組:鄒倩穎王小芳組長(zhǎng)學(xué)號(hào)姓名:1341310131屈太源組員學(xué)號(hào)姓名:1341310120馮小丹組員學(xué)號(hào)姓名:1341310726張瑜云計(jì)算科學(xué)與技術(shù)系制2015年12月目錄目錄第1章引言11.1問題分析11.2設(shè)計(jì)目標(biāo)11.2.1基本功能11.2.2擴(kuò)展功能21.3設(shè)計(jì)思路21.4功能描述21.5設(shè)計(jì)過程3第2章相關(guān)技術(shù)簡(jiǎn)介42.1Hadoop平臺(tái)介紹42.2MapReduce并行程序設(shè)計(jì)42.2.1Map函數(shù)42.2

2、.2Reduce函數(shù)52.2.3MapReduce計(jì)算模型的優(yōu)化52.3HDFS簡(jiǎn)介62.3.1HDFS節(jié)點(diǎn)62.3.2關(guān)于NameNode62.3.3關(guān)于DataNode及體系結(jié)構(gòu)圖7第3章環(huán)境搭建過程詳述83.1搭建hadoop偽分布的環(huán)境83.2設(shè)置ssh免密碼登本地83.2.1創(chuàng)建一個(gè)wifi83.2.2配置jdk93.2.3配置hadoop93.2.4測(cè)試hadoop是否搭建成功12第4章MapReduce并行設(shè)計(jì)實(shí)現(xiàn)134.1第一案例要求134.2核心代碼1134.3第二案例要求1621目錄4.4核心代碼2

3、16第5章測(cè)試和總結(jié)205.1集群測(cè)試和調(diào)試205.2集群系統(tǒng)存在的問題及解決方案205.3收獲及心得體會(huì)21參考文獻(xiàn)22致謝23I第1章引言第1章引言1.1問題分析Hadoop是Apache軟件基金會(huì)旗下的一個(gè)開源分布式計(jì)算機(jī)平臺(tái)。以Hadoop分布式文件系統(tǒng)HDFS和MapReduce為核心的Hadoop為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式架構(gòu)。Hadoop是一個(gè)能夠讓用戶輕松架構(gòu)和使用的分布式計(jì)算平臺(tái)。1.2設(shè)計(jì)目標(biāo)1.2.1基本功能Hadoop集群環(huán)境具體搭建工作,需要調(diào)用jps命令,啟動(dòng)5個(gè)服務(wù)進(jìn)程,完成Ec

4、lipse環(huán)境搭建。圖1-1集群搭建21第1章引言1.1.1擴(kuò)展功能1.編寫手機(jī)撥打電信、聯(lián)通、移動(dòng)特殊號(hào)碼的統(tǒng)計(jì)應(yīng)用。2.倒排索引的實(shí)現(xiàn)。3.Hadoop集群環(huán)境搭建,需調(diào)用jps命名啟動(dòng)5個(gè)服務(wù)進(jìn)程。1.2設(shè)計(jì)思路環(huán)境搭建1、安裝前的準(zhǔn)備完成分布式集群環(huán)境的搭建,一個(gè)master節(jié)點(diǎn),兩個(gè)slave節(jié)點(diǎn),在hosts中添加主從節(jié)點(diǎn)的IP地址。在hostname中修改主機(jī)名,并使其生效。在主要點(diǎn)中添加相應(yīng)從節(jié)點(diǎn)的IP。在yarn-env.sh中添加Java_home的路徑。2、安裝JDKJDK安裝較為簡(jiǎn)單。使用VMw

5、areWorkstation安裝了3個(gè)RHEL5.2系統(tǒng)。裝好一個(gè)RHEL,并且安裝好JDK,再利用VMwareWorkstation的克隆功能完成另外兩個(gè)的安裝。3、更改主機(jī)名IP設(shè)置:Master:10.18.5.116Slave1:10.18.6.77Slave2:10.18.6.331.3功能描述步驟1:用戶向YARN中提交應(yīng)用程序,其中包括ApplicationMaster程序、啟動(dòng)ApplicationMaster的命令、用戶程序等。21第1章引言步驟2:ResourceManager為該應(yīng)用程序分配第一個(gè)

6、Container(這里可以理解為一種資源比如內(nèi)存),并與對(duì)應(yīng)的Node-Manager通信,要求它在這個(gè)Container中啟動(dòng)應(yīng)用程序的ApplicationMaster。步驟3:ApplicationMaster首先向ResourceManager注冊(cè),這樣用戶可以直接通過ResourceManage查看應(yīng)用程序的運(yùn)行狀態(tài),然后它將為各個(gè)任務(wù)申請(qǐng)資源,并監(jiān)控它的運(yùn)行狀態(tài),直到運(yùn)行結(jié)束,即重復(fù)步驟4~7。步驟4:ApplicationMaster采用輪詢的方式通過RPC協(xié)議向ResourceManager申請(qǐng)和領(lǐng)取

7、資源。步驟5:一旦ApplicationMaster申請(qǐng)到資源后,便與對(duì)應(yīng)的NodeManager通信,要求它啟動(dòng)任務(wù)。步驟6:NodeManager為任務(wù)設(shè)置好運(yùn)行環(huán)境(包括環(huán)境變量、JAR包、二進(jìn)制程序等)后,將任務(wù)啟動(dòng)命令寫到一個(gè)腳本中,并通過運(yùn)行該腳本啟動(dòng)任務(wù)。步驟7:各個(gè)任務(wù)通過某個(gè)RPC協(xié)議向ApplicationMaster匯報(bào)自己的狀態(tài)和進(jìn)度,以讓ApplicationMaster隨時(shí)掌握各個(gè)任務(wù)的運(yùn)行狀態(tài),從而可以在任務(wù)失敗時(shí)重新啟動(dòng)任務(wù)。在應(yīng)用程序運(yùn)行過程中,用戶可隨時(shí)通過RPC向Applicati

8、onMaster查詢應(yīng)用程序的當(dāng)前運(yùn)行狀態(tài)。步驟8:應(yīng)用程序運(yùn)行完成后,ApplicationMaster向ResourceManager注銷并關(guān)閉自己)。1.1設(shè)計(jì)過程在hosts中添加主從節(jié)點(diǎn)的IP地址。在hostname中修改主機(jī)名,并使其生效。在主節(jié)點(diǎn)中添加相應(yīng)從節(jié)點(diǎn)的IP。在yarn-env.sh中添加Java_home

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。