資源描述:
《hadoop開發(fā)環(huán)境搭建教程利用cloudera實現(xiàn)hadoop》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在應用文檔-天天文庫。
1、hadoop開發(fā)環(huán)境搭建教程:利用Cloudera實現(xiàn)Hadoop安裝并配置hadoop可以參考:ClouderaHadoop4實戰(zhàn)課程hadoop開發(fā)教程學習地址:http://www.ibeifeng.com/goods-310.html1.1前言Hadoop是一個實現(xiàn)了MapReduce計算模型的開源分布式并行編程框架。MapReduce的概念來源于Google實驗室,它是一個簡化并行計算的編程模型,適用于大規(guī)模集群上的海量數(shù)據(jù)處理,目前最成功的應用是分布式搜索引擎。隨著2007年底該模式
2、Java開源實現(xiàn)項目ApacheHadoop的出現(xiàn),使得程序員可以輕松地編寫分布式并行程序,并將其運行于計算機集群上,完成海量數(shù)據(jù)的計算。近兩年尤其是今年國內(nèi)外采用MapReduce模型的應用也逐漸豐富起來,如像NTTKDDI和中國移動這類的電信公司采用該模型分析用戶信息,優(yōu)化網(wǎng)絡配置;美國供電局采用該模型來分析電網(wǎng)現(xiàn)狀;包括VISA和JP摩根在內(nèi)的金融公司采用該模型來分析股票數(shù)據(jù);包括Amazon和ebay在內(nèi)的零售商和電子商務公司也開始采用該模型;甚至部分生物公司也采用該模型來進行DNA測序
3、和分析。然而Hadoop安裝、部署、管理的難度非常大,這使用很多用戶對Hadoop望而卻步,好在這種情況不久就得到了改善,Cloudera提供了非常簡單的Hadoop的發(fā)布版本,能夠十分方便地對Hadoop進行安裝、部署和管理,這導致目前大約有75%的Hadoop新用戶使用Cloudera。1.2規(guī)劃1.2.1運行模式Hadoop有三種運行模式:單機(非分布)運行模式、偽分布運行模式和分布式運行模式。其中前兩種運行模式體現(xiàn)不了Hadoop分布式計算的優(yōu)勢,并沒有什么實際意義(當然它們對程序的測試
4、及調(diào)試還是很有幫助的),因此在這里還是采用實際環(huán)境中使用的分布式運行模式來部署。1.2.2主機規(guī)劃在這里擬采用三臺主機搭建Hadoop環(huán)境,由于后期還需要測試增刪主機及跨網(wǎng)段主機對Hadoop環(huán)境的影響,特將Hadoop主機規(guī)劃如下:Hadoop-0110.137.253.201Hadoop-0210.137.253.202Hadoop-0310.137.253.203準備后期加入的測試主機Hadoop-0410.137.253.204Firehare-30310.10.3.30準備后期加入的跨
5、網(wǎng)段測試主機1.2.3Hadoop環(huán)境規(guī)劃對于Hadoop來說,最主要的是兩個內(nèi)容,一是分布式文件系統(tǒng)HDFS,一是MapReduce計算模型。在分布式文件系統(tǒng)HDFS看來,節(jié)點分為NameNode和DataNode,其中NameNode只有一個,DataNode可以是很多;在MapReduce計算模型看來,節(jié)點又可分為JobTracker和TaskTracker,其中JobTracker只有一個,TaskTracker可以是很多。因此在實際的Hadoop環(huán)境中通常有兩臺主節(jié)點,一臺作為Name
6、Node(I/O節(jié)點??),一臺作為JobTracker(管理節(jié)點??),剩下的都是從節(jié)點,同時當做DataNode和TaskTracker使用。當然也可以將NameNode和JobTracker安裝在一臺主節(jié)點上。由于測試機數(shù)量有限,所以在這里是讓Hadoop-01做為Namenode和Jobtracker,其它主機則作為DataNode和TaskTracker(如果Hadoop環(huán)境中主機數(shù)量很多的話,還是建議將Namenode和JobTracker部署到不同的主機,以提高計算的性能)。具體規(guī)
7、劃如下:HDFS:Hadoop-01NameNodeHadoop-02DataNodeHadoop-03DataNodeHadoop-04DataNodeFirehare-303DataNodeMapReduce:Hadoop-01JobTrackerHadoop-02TaskTrackerHadoop-03TaskTrackerHadoop-04TaskTrackerFirehare-303TaskTracker1.3安裝規(guī)劃好了就開始安裝Hadoop,如前言中所說使用Cloudera的Had
8、oop發(fā)布版安裝Hadoop是十分方便的,首先當然是在每臺主機上一個干凈的操作系統(tǒng)(我用的是Ubuntu8.04,用戶設為Hadoop,其它的版本應該差不多),然后就是安裝Hadoop了(這樣安裝的是Hadoop-0.20,也可以安裝Hadoop-0.18的版本,反正安裝步驟都差不多。注意,不能同時啟用Hadoop-0.20和Hadoop-0.18)。由于每臺機器安裝步驟都一樣,這里就寫出了一臺主機的安裝步驟,主要分為以下幾個步驟:1.3.1設置Cloudera的源生成Cloudera源文件(這