大數(shù)據(jù)和云計(jì)算環(huán)境下的Hadoop技術(shù)研究.doc

ID：55139058

大小：26.50 KB

頁數(shù)：5頁

時(shí)間：2020-04-28

大數(shù)據(jù)和云計(jì)算環(huán)境下的Hadoop技術(shù)研究.doc_第1頁

大數(shù)據(jù)和云計(jì)算環(huán)境下的Hadoop技術(shù)研究.doc_第2頁

大數(shù)據(jù)和云計(jì)算環(huán)境下的Hadoop技術(shù)研究.doc_第3頁

大數(shù)據(jù)和云計(jì)算環(huán)境下的Hadoop技術(shù)研究.doc_第4頁

大數(shù)據(jù)和云計(jì)算環(huán)境下的Hadoop技術(shù)研究.doc_第5頁

資源描述：

《大數(shù)據(jù)和云計(jì)算環(huán)境下的Hadoop技術(shù)研究.doc》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。

1、大數(shù)據(jù)和云計(jì)算環(huán)境下的Hadoop技術(shù)研究　　[摘要]大數(shù)據(jù)與云計(jì)算技術(shù)都已經(jīng)成為信息社會(huì)最重要的技術(shù)之一，Hadoop是大數(shù)據(jù)與云計(jì)算時(shí)代背景下最熱門的技術(shù)之一，Hadoop的相關(guān)技術(shù)對學(xué)術(shù)研究有重要影響。本文主要對Hadoop技術(shù)進(jìn)行了研究，首先介紹了大數(shù)據(jù)和云計(jì)算的概念，其次介紹了Hadoop的概況以及相關(guān)技術(shù)的原理，比如核心技術(shù)HDFS和MapReduce；再次分析了目前Hadoop所面臨的安全問題，然后描述了Hadoop的發(fā)展瓶頸并提出改進(jìn)方案；最后進(jìn)行了總結(jié)并展望Hadoop、Spark和Storm

2、三者相互結(jié)合，混合架構(gòu)將是未來發(fā)展的方向?！　關(guān)鍵詞]大數(shù)據(jù)；云計(jì)算；Hadoop　　doi：10.3969/j.issn.1673-0194.2017.13.076　　[中圖分類號(hào)]TP311.13；TP333[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1673-019413-0177-03　　1概述　　大數(shù)據(jù)是指通過新的信息處理技術(shù)和方式，對數(shù)據(jù)進(jìn)行收集、存儲(chǔ)、分析以及處理等，并且能夠利用全新的數(shù)據(jù)處理技術(shù)和方式產(chǎn)生相關(guān)聯(lián)的預(yù)測效應(yīng)，協(xié)助決策，發(fā)揮海量快速增長數(shù)據(jù)的價(jià)值。　　云計(jì)算是指一種特殊的計(jì)算模式，它將計(jì)算任務(wù)分布

3、在資源池中，池中的資源包括計(jì)算服務(wù)器、存儲(chǔ)服務(wù)器、寬帶資源，使用戶能夠按需獲取各種服務(wù)?！　〈髷?shù)據(jù)與云計(jì)算之間相得益彰，相輔相成，因?yàn)樵朴?jì)算本質(zhì)上是數(shù)據(jù)處理技術(shù)，其核心是業(yè)務(wù)模型，大數(shù)據(jù)是云計(jì)算的延伸，是云計(jì)算的資產(chǎn)?！　∧壳埃Ａ糠墙Y(jié)構(gòu)化的數(shù)據(jù)分析處理需一種高效并行的編程模型，此時(shí)Apache項(xiàng)目基金會(huì)研發(fā)的Hadoop迅速崛起，Hadoop主要用來進(jìn)行大數(shù)據(jù)分析處理。Hadoop的出現(xiàn)解決了大數(shù)據(jù)并行計(jì)算、存儲(chǔ)、管理等關(guān)鍵問題，這樣用戶即使對分布式底層細(xì)節(jié)不了解，也可以開發(fā)分布式程序。Hadoop得到了廣泛

4、認(rèn)可，其優(yōu)點(diǎn)是不容忽視的，主要有：高擴(kuò)展性、低成本、高效率、高可靠性?！　?Hadoop相關(guān)的技術(shù)　　Hadoop可以部署在廉價(jià)機(jī)器上的處理海量文件存?τ氬⑿屑撲愕腦萍撲憧?發(fā)平臺(tái)。Hadoop由HDFS、MapReduce、HBase、Hive、Zookeeper、Pig、Ambari、Sqoop等組成，其中主要部分是HDFS和MapReduce?！　?.1HDFS　　HDFS是構(gòu)建在PC服務(wù)器上的高度容錯(cuò)的分布式文件系統(tǒng)，目的是用于海量數(shù)據(jù)的處理。HDFS的架構(gòu)形式是主從架構(gòu)，HDFS的元數(shù)據(jù)服務(wù)器和數(shù)據(jù)塊

5、服務(wù)器命名為NameNode和DataNode?！　ameNode是一個(gè)中心服務(wù)器，是HDFS的核心結(jié)構(gòu)，負(fù)責(zé)客戶端對文件的訪問以及管理文件系統(tǒng)的名字空間，存儲(chǔ)HDFS分布式文件系統(tǒng)的元數(shù)據(jù)信息，NameNode可判斷DataNode是否處在工作狀態(tài)，并管理著DataNode上的分塊信息?！　ataNode負(fù)責(zé)管理其所在的節(jié)點(diǎn)上的所有數(shù)據(jù)，能夠根據(jù)用戶的請求來查詢數(shù)據(jù)，周期性地與NameNode通信來告知自己保存的數(shù)據(jù)塊信息?！　?.2MapReduce　　MapReduce設(shè)計(jì)之初是為了處理一些互聯(lián)網(wǎng)數(shù)據(jù)

6、，MapReduce有簡單的接口和透明的編程環(huán)境，極大地節(jié)省了開發(fā)周期。MapReduce通過處理大量數(shù)據(jù)來精簡和優(yōu)化數(shù)據(jù)集，以便將數(shù)據(jù)集載入到數(shù)據(jù)庫管理系統(tǒng)中。　　MapReduce也采用了主從架構(gòu)，將數(shù)據(jù)處理任務(wù)分為兩大過程，分別為：Map過程和Reduce過程。Map過程的任務(wù)主要為數(shù)據(jù)的過濾處理，Reduce過程的任務(wù)主要為數(shù)據(jù)的聚集處理。在Map過程中，第一，要將輸入的數(shù)據(jù)集分成若干數(shù)據(jù)塊，再為每一個(gè)數(shù)據(jù)塊分配一個(gè)Map小任務(wù)；第二，將這些任務(wù)分配到集群中的各個(gè)節(jié)點(diǎn)上，此時(shí)在計(jì)算過程中會(huì)出現(xiàn)一個(gè)數(shù)據(jù)集

7、合；第三，將這些數(shù)據(jù)集合進(jìn)行排序再產(chǎn)生一個(gè)新的數(shù)據(jù)集合，此時(shí)新的數(shù)據(jù)集合中的數(shù)據(jù)都具有相同的鍵值；第四，進(jìn)入Reduce過程，產(chǎn)生最終結(jié)果，并輸出到HDFS中。　　2.3Hadoop中的其他技術(shù)　　Hadoop生態(tài)系統(tǒng)除了有HDFS、MapReduce之外還有其他相關(guān)技術(shù)：　　HBase　　HBase是用于服務(wù)海量數(shù)據(jù)的存儲(chǔ)以及快速讀寫，它可以通過添加節(jié)點(diǎn)來進(jìn)行線性的擴(kuò)展，但是卻不支持向后擴(kuò)。　　Hive　　Hive是構(gòu)建在Hadoop之上的數(shù)據(jù)倉庫基礎(chǔ)架構(gòu)?？蓪?shí)現(xiàn)數(shù)據(jù)的提取、轉(zhuǎn)化、加載等功能?！　ookee

8、per　　Zookeeper分布式協(xié)調(diào)服務(wù)是由許多服務(wù)器節(jié)點(diǎn)組成的，其目的是對Hadoop集群的運(yùn)維進(jìn)行管理?！　ig　　Pig可為用戶提供多種接口，用于查詢大型半結(jié)構(gòu)化的數(shù)據(jù)集，為大型數(shù)據(jù)提供了一個(gè)高層次的抽象，是大數(shù)據(jù)分析平臺(tái)。　　Ambari　　Ambari是一個(gè)基于Web的管理工具，可快速部署、監(jiān)控以及管理集群?！　qoop　　Sqoop是在Hadoop系統(tǒng)與傳統(tǒng)的數(shù)據(jù)庫間

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 5



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

大數(shù)據(jù)和云計(jì)算環(huán)境下的Hadoop技術(shù)研究.doc

大數(shù)據(jù)和云計(jì)算環(huán)境下的Hadoop技術(shù)研究.doc

相關(guān)文章

相關(guān)標(biāo)簽