第1講:初識hadoop

第1講:初識hadoop

ID:1476047

大?。?.96 MB

頁數(shù):45頁

時間:2017-11-11

第1講:初識hadoop_第1頁
第1講:初識hadoop_第2頁
第1講:初識hadoop_第3頁
第1講:初識hadoop_第4頁
第1講:初識hadoop_第5頁
資源描述:

《第1講:初識hadoop》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在教育資源-天天文庫。

1、第1講Hadoop:Google云計算的開源實現(xiàn)關于本課程的預備知識Linux:懂基本操作Java:能看懂Java程序Hadoop是什么?面向大數(shù)據(jù)處理擅長離線數(shù)據(jù)分析分布式文件系統(tǒng)+計算框架Hadoop不是數(shù)據(jù)庫,Hbase才是數(shù)據(jù)庫Hadoop是一個快速進化的生態(tài)系統(tǒng)Hadoop會使用在哪些行業(yè)?大數(shù)據(jù)平臺知識線路圖Hadoop典型職位運維Hadoop程序員(M-R,源代碼)架構師數(shù)據(jù)倉庫工程師課程目標部署:Hadoop,Hbase,Hive,Pig數(shù)據(jù)集成:Sqoop,與Oracle、Mysql等關系型數(shù)據(jù)庫集成,與應用集成,與R等常用數(shù)據(jù)分析工具集成掌握HDFS原理和基

2、本操作掌握Map-Reduce工作原理,知道怎樣把M-R算法用于解決實際場景能書寫基本的Map-Reduce程序了解整個Hadoop生態(tài)系統(tǒng)的各個子產(chǎn)品,知道在大數(shù)據(jù)平臺架構時應該使用哪些產(chǎn)品具備初步閱讀源代碼的能力提綱Hadoop簡介?Hadoop子項目?Hadoop架構?Hadoop分布式文件系統(tǒng)HDFS?分布式數(shù)據(jù)處理MapReduce?Hadoop數(shù)據(jù)管理Hadoop的源起——LuceneDougCutting開創(chuàng)的開源軟件,用java書寫代碼,實現(xiàn)與Google類似的全文搜索功能,它提供了全文檢索引擎的架構,包括完整的查詢引擎和索引引擎早期發(fā)布在個人網(wǎng)站和Source

3、Forge,2001年年底成為apache軟件基金會jakarta的一個子項目Lucene的目的是為軟件開發(fā)人員提供一個簡單易用的工具包,以方便的在目標系統(tǒng)中實現(xiàn)全文檢索的功能,或者是以此為基礎建立起完整的全文檢索引擎對于大數(shù)量的場景,Lucene面對與Google同樣的困難。迫使DougCutting學習和模仿Google解決這些問題的辦法一個微縮版:Nutch從lucene到nutch,從nutch到hadoop2003-2004年,Google公開了部分GFS和Mapreduce思想的細節(jié),以此為基礎DougCutting等人用了2年業(yè)余時間實現(xiàn)了DFS和Mapreduc

4、e機制,使Nutch性能飆升Yahoo招安DougCutting及其項目Hadoop于2005年秋天作為Lucene的子項目Nutch的一部分正式引入Apache基金會。2006年3月份,Map-Reduce和NutchDistributedFileSystem(NDFS)分別被納入稱為Hadoop的項目中2008年4月,Hadoop成為世界上最快的TB級數(shù)據(jù)排序系統(tǒng)。名字來源于DougCutting兒子的玩具大象Hadoop簡介Hadoop——Apache開源組織的一個分布式計算框架,可以在大量廉價的硬件設備組成的集群上運行應用程序,為應用程序提供了一組穩(wěn)定可靠的接口,旨在構

5、建一個具有高可靠性和良好擴展性的分布式系統(tǒng)Hadoop云計算系統(tǒng)Google云計算系統(tǒng)HadoopHDFS分布式文件系統(tǒng)GoogleGFSHadoopMapReduce分布式處理模型GoogleMapReduceHadoopHBase分布式數(shù)據(jù)庫GoogleBigtableHadoopZooKeeper解決分布式系統(tǒng)的一致性問題GoogleChubbyHadoopPig高級數(shù)據(jù)流語言GoogleSawzallHadoop云計算系統(tǒng)與Google云計算系統(tǒng)Hadoop優(yōu)點1、高可靠性HDFS分布式文件系統(tǒng)采用了備份恢復機制及MapReduce中的任務采用了監(jiān)控機制,存儲采用按位存

6、儲。2、高擴展性Hadoop是在可用的計算機集群間進行數(shù)據(jù)的分配的,能擴展到數(shù)以千計的節(jié)點中。不管是存儲還是計算,可擴展性都是其設計根本所在。3、經(jīng)濟性Hadoop可以運行在廉價的PC上。4、高容錯性Hadoop采用自動保存數(shù)據(jù)的多個副本方式,并能自動為失敗的任務進行重新分配。(冗余副本機制)5、高效性目前Hadoop達到的高度?實現(xiàn)云計算的事實標準開源軟件。?包含數(shù)十個具有強大生命力的子項目。?已經(jīng)能在數(shù)千節(jié)點上運行,處理數(shù)據(jù)量和排序時間不斷打破世界紀錄。Hadoop子項目家族Hadoop簡介Hadoop項目組成?(1)HadoopCommon是為Hadoop其他子項目提供支

7、持的常用工具,為廉價硬件上搭建云計算環(huán)境提供基本的服務。?(2)Avro用于數(shù)據(jù)序列化的系統(tǒng),提供了豐富的數(shù)據(jù)結構類型、快速可壓縮的二進制數(shù)據(jù)格式、存儲持久性數(shù)據(jù)的文件集、遠程調(diào)用RPC的功能和簡單的動態(tài)語言集成功能。?(3)Chukwa開源的用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng)。?(4)HBase分布式開源數(shù)據(jù)庫。?(5)HDFS分布式文件系統(tǒng)?(6)Hive數(shù)據(jù)倉庫分析系統(tǒng)?(7)MapReduce簡化的分布式編程模式。?(8)Pig用于并行計算的高級數(shù)據(jù)流語言和執(zhí)行框架。?(9)Zoo

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。