hadoop大數(shù)據(jù)平臺部署與應用

hadoop大數(shù)據(jù)平臺部署與應用

ID:20880810

大?。?.17 MB

頁數(shù):61頁

時間:2018-10-17

hadoop大數(shù)據(jù)平臺部署與應用_第1頁
hadoop大數(shù)據(jù)平臺部署與應用_第2頁
hadoop大數(shù)據(jù)平臺部署與應用_第3頁
hadoop大數(shù)據(jù)平臺部署與應用_第4頁
hadoop大數(shù)據(jù)平臺部署與應用_第5頁
資源描述:

《hadoop大數(shù)據(jù)平臺部署與應用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、Hadoop大數(shù)據(jù)平臺部署與應用主講:呂震宇主要內(nèi)容1、Hadoop生態(tài)系統(tǒng)概述以及版本演化2、Hadoop發(fā)行版介紹(開源版)3、Hadoop安裝4、HDFS上機操作5、HBASE上機操作6、YARN上機操作7、MapReduce上機操作8、SPARK概述1、Hadoop生態(tài)系統(tǒng)概述以及版本演化Hadoop1.0與Hadoop2.0分布式存儲系統(tǒng)HDFS(HadoopDistributedFileSystem)提供了高可靠性、高擴展性和高吞吐率的數(shù)據(jù)存儲服務分布式計算框架MapReduce具有易于編程、高容錯性和高擴展

2、性等優(yōu)點資源管理系統(tǒng)YARN(YetAnotherResourceNegotiator)負責集群資源的統(tǒng)一管理和調(diào)度HADOOP1.0HADOOP2.0HDFS(redundant,reliablestorage)MapReduce(clusterresourcemanagement&dataprocessing)MapReduce(dataprocessing)Others(dataprocessing)YARN(clusterresourcemanagement)HDFS(redundant,reliablestor

3、age)HDFS架構(gòu)DataNodeDataNodeDataNodeDataNodeDataNodeLocalDiskNameNodeSecondaryNameNodeHDFSClientLocalDiskLocalDiskLocalDiskLocalDisk心跳、均衡負載、復制等HDFS架構(gòu)ActiveNamenode主Master(只有一個),管理HDFS的名稱空間,管理數(shù)據(jù)塊映射信息配置副本策略;處理客戶端讀寫請求SecondaryNameNodeNameNode的熱備;定期合并fsimage和fsedits,推送

4、給NameNode;當ActiveNameNode出現(xiàn)故障時,快速切換為新的ActiveNameNode。DatanodeSlave(有多個);存儲實際的數(shù)據(jù)塊;執(zhí)行數(shù)據(jù)塊讀/寫Client與NameNode交互,獲取文件位置信息;與DataNode交互,讀取或者寫入數(shù)據(jù);管理HDFS、訪問HDFS。MapReduce源自于Google的MapReduce論文發(fā)表于2004年12月HadoopMapReduce是GoogleMapReduce克隆版MapReduce特點良好的擴展性高容錯性適合PB級以上海量數(shù)據(jù)的離線處理

5、詞頻統(tǒng)計的MapReduce處理過程DeerBearRiverCarCarRiverDeerCarBearDeer,1Bear,1River,1Car,1Car,1River,1Deer,1Car,1Bear,1DeerBearRiverCarCarRiverDeerCarBearBear,1Bear,1Car,1Car,1Car,1Deer,1Deer,1River,1River,1Bear,2Car,3Deer,2River,2Bear,2Car,3Deer,2River,2InputSplittingMapping

6、ReducingShufflingFinalresultHadoop構(gòu)成:YARN(資源管理系統(tǒng))ApplicationRunNativelyINHadoopBATCH(MapReduce)YARN(ClusterResourceManagement)HDFS2(Redundant,ReliableStorage)InterActive(Tez)ONLINE(HBase)STREAMING(Storm,S4,…)GRAPH(Giraph)IN-MEMORY(Spark)HPCMPI(OpenMPI)OTHER(Searc

7、h…)YARN是什么Hadoop2.0新增系統(tǒng)負責集群的資源管理和調(diào)度使得多種計算框架可以運行在一個集群中YARN的特點良好的擴展性、高可用性對多種類型的應用程序進行統(tǒng)一管理和調(diào)度自帶多種多用戶調(diào)度器,適合共享集群環(huán)境Hadoop生態(tài)系統(tǒng):1.0時代Flume(日志收集)Zookeeper(分布式協(xié)調(diào)服務)Mahout(數(shù)據(jù)挖掘庫)Hive(數(shù)據(jù)倉庫)Oozie(作業(yè)流調(diào)度系統(tǒng))MapReduce(分布式計算框架)Ambari(安裝部署工具)HDFS(分布式存儲系統(tǒng))Pig(工作流引擎)Hbase(分布式數(shù)據(jù)庫)Sqoo

8、p(數(shù)據(jù)庫TEL工具)Hive(基于MR的數(shù)據(jù)倉庫)由Facebook開源,最初用于海量結(jié)構(gòu)化日志數(shù)據(jù)統(tǒng)計;ETL(Extraction-Transformation-Loading)工具構(gòu)建在Hadoop之上的數(shù)據(jù)倉庫數(shù)據(jù)計算使用MapReduce,數(shù)據(jù)存儲使用HDFSHive定義了一種類SQL查詢語言——HQL類

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。