大數(shù)據(jù)和云計(jì)算環(huán)境下的Hadoop技術(shù)研究.doc

大數(shù)據(jù)和云計(jì)算環(huán)境下的Hadoop技術(shù)研究.doc

ID:55139058

大小:26.50 KB

頁數(shù):5頁

時(shí)間:2020-04-28

大數(shù)據(jù)和云計(jì)算環(huán)境下的Hadoop技術(shù)研究.doc_第1頁
大數(shù)據(jù)和云計(jì)算環(huán)境下的Hadoop技術(shù)研究.doc_第2頁
大數(shù)據(jù)和云計(jì)算環(huán)境下的Hadoop技術(shù)研究.doc_第3頁
大數(shù)據(jù)和云計(jì)算環(huán)境下的Hadoop技術(shù)研究.doc_第4頁
大數(shù)據(jù)和云計(jì)算環(huán)境下的Hadoop技術(shù)研究.doc_第5頁
資源描述:

《大數(shù)據(jù)和云計(jì)算環(huán)境下的Hadoop技術(shù)研究.doc》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。

1、大數(shù)據(jù)和云計(jì)算環(huán)境下的Hadoop技術(shù)研究  [摘要]大數(shù)據(jù)與云計(jì)算技術(shù)都已經(jīng)成為信息社會(huì)最重要的技術(shù)之一,Hadoop是大數(shù)據(jù)與云計(jì)算時(shí)代背景下最熱門的技術(shù)之一,Hadoop的相關(guān)技術(shù)對學(xué)術(shù)研究有重要影響。本文主要對Hadoop技術(shù)進(jìn)行了研究,首先介紹了大數(shù)據(jù)和云計(jì)算的概念,其次介紹了Hadoop的概況以及相關(guān)技術(shù)的原理,比如核心技術(shù)HDFS和MapReduce;再次分析了目前Hadoop所面臨的安全問題,然后描述了Hadoop的發(fā)展瓶頸并提出改進(jìn)方案;最后進(jìn)行了總結(jié)并展望Hadoop、Spark和Storm

2、三者相互結(jié)合,混合架構(gòu)將是未來發(fā)展的方向?! 關(guān)鍵詞]大數(shù)據(jù);云計(jì)算;Hadoop  doi:10.3969/j.issn.1673-0194.2017.13.076  [中圖分類號(hào)]TP311.13;TP333[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1673-019413-0177-03  1概述  大數(shù)據(jù)是指通過新的信息處理技術(shù)和方式,對數(shù)據(jù)進(jìn)行收集、存儲(chǔ)、分析以及處理等,并且能夠利用全新的數(shù)據(jù)處理技術(shù)和方式產(chǎn)生相關(guān)聯(lián)的預(yù)測效應(yīng),協(xié)助決策,發(fā)揮海量快速增長數(shù)據(jù)的價(jià)值。  云計(jì)算是指一種特殊的計(jì)算模式,它將計(jì)算任務(wù)分布

3、在資源池中,池中的資源包括計(jì)算服務(wù)器、存儲(chǔ)服務(wù)器、寬帶資源,使用戶能夠按需獲取各種服務(wù)?! 〈髷?shù)據(jù)與云計(jì)算之間相得益彰,相輔相成,因?yàn)樵朴?jì)算本質(zhì)上是數(shù)據(jù)處理技術(shù),其核心是業(yè)務(wù)模型,大數(shù)據(jù)是云計(jì)算的延伸,是云計(jì)算的資產(chǎn)?! ∧壳埃A糠墙Y(jié)構(gòu)化的數(shù)據(jù)分析處理需一種高效并行的編程模型,此時(shí)Apache項(xiàng)目基金會(huì)研發(fā)的Hadoop迅速崛起,Hadoop主要用來進(jìn)行大數(shù)據(jù)分析處理。Hadoop的出現(xiàn)解決了大數(shù)據(jù)并行計(jì)算、存儲(chǔ)、管理等關(guān)鍵問題,這樣用戶即使對分布式底層細(xì)節(jié)不了解,也可以開發(fā)分布式程序。Hadoop得到了廣泛

4、認(rèn)可,其優(yōu)點(diǎn)是不容忽視的,主要有:高擴(kuò)展性、低成本、高效率、高可靠性?! ?Hadoop相關(guān)的技術(shù)  Hadoop可以部署在廉價(jià)機(jī)器上的處理海量文件存?τ氬⑿屑撲愕腦萍撲憧?發(fā)平臺(tái)。Hadoop由HDFS、MapReduce、HBase、Hive、Zookeeper、Pig、Ambari、Sqoop等組成,其中主要部分是HDFS和MapReduce?! ?.1HDFS  HDFS是構(gòu)建在PC服務(wù)器上的高度容錯(cuò)的分布式文件系統(tǒng),目的是用于海量數(shù)據(jù)的處理。HDFS的架構(gòu)形式是主從架構(gòu),HDFS的元數(shù)據(jù)服務(wù)器和數(shù)據(jù)塊

5、服務(wù)器命名為NameNode和DataNode?! ameNode是一個(gè)中心服務(wù)器,是HDFS的核心結(jié)構(gòu),負(fù)責(zé)客戶端對文件的訪問以及管理文件系統(tǒng)的名字空間,存儲(chǔ)HDFS分布式文件系統(tǒng)的元數(shù)據(jù)信息,NameNode可判斷DataNode是否處在工作狀態(tài),并管理著DataNode上的分塊信息?! ataNode負(fù)責(zé)管理其所在的節(jié)點(diǎn)上的所有數(shù)據(jù),能夠根據(jù)用戶的請求來查詢數(shù)據(jù),周期性地與NameNode通信來告知自己保存的數(shù)據(jù)塊信息?! ?.2MapReduce  MapReduce設(shè)計(jì)之初是為了處理一些互聯(lián)網(wǎng)數(shù)據(jù)

6、,MapReduce有簡單的接口和透明的編程環(huán)境,極大地節(jié)省了開發(fā)周期。MapReduce通過處理大量數(shù)據(jù)來精簡和優(yōu)化數(shù)據(jù)集,以便將數(shù)據(jù)集載入到數(shù)據(jù)庫管理系統(tǒng)中。  MapReduce也采用了主從架構(gòu),將數(shù)據(jù)處理任務(wù)分為兩大過程,分別為:Map過程和Reduce過程。Map過程的任務(wù)主要為數(shù)據(jù)的過濾處理,Reduce過程的任務(wù)主要為數(shù)據(jù)的聚集處理。在Map過程中,第一,要將輸入的數(shù)據(jù)集分成若干數(shù)據(jù)塊,再為每一個(gè)數(shù)據(jù)塊分配一個(gè)Map小任務(wù);第二,將這些任務(wù)分配到集群中的各個(gè)節(jié)點(diǎn)上,此時(shí)在計(jì)算過程中會(huì)出現(xiàn)一個(gè)數(shù)據(jù)集

7、合;第三,將這些數(shù)據(jù)集合進(jìn)行排序再產(chǎn)生一個(gè)新的數(shù)據(jù)集合,此時(shí)新的數(shù)據(jù)集合中的數(shù)據(jù)都具有相同的鍵值;第四,進(jìn)入Reduce過程,產(chǎn)生最終結(jié)果,并輸出到HDFS中。  2.3Hadoop中的其他技術(shù)  Hadoop生態(tài)系統(tǒng)除了有HDFS、MapReduce之外還有其他相關(guān)技術(shù):  HBase  HBase是用于服務(wù)海量數(shù)據(jù)的存儲(chǔ)以及快速讀寫,它可以通過添加節(jié)點(diǎn)來進(jìn)行線性的擴(kuò)展,但是卻不支持向后擴(kuò)。  Hive  Hive是構(gòu)建在Hadoop之上的數(shù)據(jù)倉庫基礎(chǔ)架構(gòu)??蓪?shí)現(xiàn)數(shù)據(jù)的提取、轉(zhuǎn)化、加載等功能?! ookee

8、per  Zookeeper分布式協(xié)調(diào)服務(wù)是由許多服務(wù)器節(jié)點(diǎn)組成的,其目的是對Hadoop集群的運(yùn)維進(jìn)行管理?! ig  Pig可為用戶提供多種接口,用于查詢大型半結(jié)構(gòu)化的數(shù)據(jù)集,為大型數(shù)據(jù)提供了一個(gè)高層次的抽象,是大數(shù)據(jù)分析平臺(tái)。  Ambari  Ambari是一個(gè)基于Web的管理工具,可快速部署、監(jiān)控以及管理集群?! qoop  Sqoop是在Hadoop系統(tǒng)與傳統(tǒng)的數(shù)據(jù)庫間

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。