資源描述:
《4-Hbase安裝配置和應(yīng)用實(shí)踐》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、HBase集群的安裝配置和應(yīng)用實(shí)踐一、實(shí)驗(yàn)?zāi)康?、掌握Hbase在Hadoop集群體系結(jié)構(gòu)中發(fā)揮的作用和使用過(guò)程。2、掌握安裝和配置HBase基本方法。3、掌握HBase基本應(yīng)用開(kāi)發(fā)知識(shí)。二、實(shí)驗(yàn)原理HBase–HadoopDatabase,是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng),利用HBase技術(shù)可在廉價(jià)PCServer上搭建起大規(guī)模結(jié)構(gòu)化存儲(chǔ)集群。HBase是GoogleBigtable的開(kāi)源實(shí)現(xiàn),類似GoogleBigtable利用GFS作為其文件存儲(chǔ)系統(tǒng),HBase利用HadoopHDFS作為其文件存儲(chǔ)系統(tǒng);Google運(yùn)行MapRed
2、uce來(lái)處理Bigtable中的海量數(shù)據(jù),HBase同樣利用HadoopMapReduce來(lái)處理HBase中的海量數(shù)據(jù);GoogleBigtable利用Chubby作為協(xié)同服務(wù),HBase利用Zookeeper作為對(duì)應(yīng)。[HBase是GoogleBigtable的開(kāi)源實(shí)現(xiàn),它利用HadoopHDFS作為其文件存儲(chǔ)系統(tǒng),利用HadoopMapReduce來(lái)處理HBase中的海量數(shù)據(jù),利用Zookeeper作為協(xié)同服務(wù)。]上圖描述了HadoopEcoSystem中的各層系統(tǒng),其中HBase位于結(jié)構(gòu)化存儲(chǔ)層,HadoopHDFS為HBase提供了高可靠性的底層存儲(chǔ)支
3、持,HadoopMapReduce為HBase提供了高性能的計(jì)算能力,Zookeeper為HBase提供了穩(wěn)定服務(wù)和failover機(jī)制。此外,Pig和Hive還為HBase提供了高層語(yǔ)言支持,使得在HBase上進(jìn)行數(shù)據(jù)統(tǒng)計(jì)處理變的非常簡(jiǎn)單。Sqoop則為HBase提供了方便的RDBMS數(shù)據(jù)導(dǎo)入功能,使得傳統(tǒng)數(shù)據(jù)庫(kù)數(shù)據(jù)向HBase中遷移變的非常方便。HBase具有以下特性:1、線性及模塊可擴(kuò)展性。2、嚴(yán)格一致讀寫(xiě)性。3、可配置的表自動(dòng)分割策略。4、RegionServer自動(dòng)故障恢復(fù)。5、便利地備份MapReduce作業(yè)的基類。6、便于客戶端訪問(wèn)的JavaAP
4、I。7、為實(shí)時(shí)查詢提供了塊緩存和BloomFilter。8、可通過(guò)服務(wù)器端的過(guò)濾器進(jìn)行查詢下推預(yù)測(cè)。9、提供XML、Protobuf及二進(jìn)制編碼的Thrift網(wǎng)管和REST-ful網(wǎng)絡(luò)服務(wù)。10、可擴(kuò)展的JIRB(jruby-based)shell。11、支持通過(guò)Hadoop或JMX將度量標(biāo)準(zhǔn)倒出到文件或Ganglia中。三、實(shí)驗(yàn)內(nèi)容實(shí)驗(yàn)的主要內(nèi)容有如下幾點(diǎn):1、ntp時(shí)間同步服務(wù)器搭建與使用2、Zookeeper集群環(huán)境安裝過(guò)程詳解3、HBase的安裝和配置。4、HBase開(kāi)發(fā)實(shí)踐。四、實(shí)驗(yàn)步驟本實(shí)驗(yàn)以u(píng)nbutu14.04,hadoop2.20集群為前提進(jìn)
5、行實(shí)驗(yàn)。Zookeeper安裝版本為zookeeper-3.4.5,HBase安裝版本為hbase-0.96.2-hadoop2。Hadoop集群ip及角色分配如下10.31.44.117master(namenode)10.31.44.200slaver1(datanode)10.31.44.201slaver2(datanode)第一部分:準(zhǔn)備工作(Hadoop、SSH、NTP)1、Hadoop完全分布式的安裝:必須可以正常啟動(dòng)HDFS系統(tǒng),確保hdfs能夠上傳和讀寫(xiě)文件。2、SSH無(wú)密驗(yàn)證雙向互通:這個(gè)具體安裝,并且達(dá)到無(wú)密碼登錄前面已經(jīng)介紹。但是要達(dá)到
6、雙向無(wú)密碼互通我們只需要將每臺(tái)機(jī)器的公鑰均寫(xiě)入到同一個(gè)授權(quán)文件,然后將授權(quán)文件復(fù)制到每臺(tái)機(jī)器上即可(具體公鑰寫(xiě)入授權(quán)文件的方法參考Hadoop完全分布式的安裝試驗(yàn))。這樣就可以達(dá)到雙向無(wú)密碼互通。這樣Hadoop的腳本才可以遠(yuǎn)程操控其他的Hadoop和Hbase進(jìn)程。3、Ntp時(shí)間同步服務(wù)器安裝配置:集群的時(shí)鐘要保證基本的一致。稍有不一致是可以容忍的,但是很大的不一致會(huì)造成奇怪的行為。運(yùn)行NTP或者其他什么東西來(lái)同步你的時(shí)間.下面對(duì)Ntp時(shí)間同步服務(wù)器NTP安裝配置步驟如下:3.1、服務(wù)端(master)apt-getinstallntp安裝后默認(rèn)啟動(dòng)服務(wù),如
7、果沒(méi)有啟動(dòng),啟動(dòng)之。/etc/init.d/ntpstart?vim/etc/ntp.conf修改為如下:重啟ntp服務(wù)?/etc/init.d/ntprestart3.2、客戶端(slaver1、slaver2)1)使用ntpdate命令,如果不存在這個(gè)命令,則先安裝apt-getinstallntp2)/usr/sbin/ntpdate10.31.44.117//即使用ip為10.31.44.117的ntp服務(wù)器同步時(shí)間3)設(shè)置定時(shí)同步?vim/etc/crontab系統(tǒng)便會(huì)在每天早上1點(diǎn)30分自動(dòng)將系統(tǒng)時(shí)間同步到ntp服務(wù)器的時(shí)間當(dāng)然這里crontab的
8、時(shí)間是指客戶端的時(shí)間,同步后等同于nt