資源描述:
《第1講:初識(shí)hadoop》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、第1講Hadoop:Google云計(jì)算的開源實(shí)現(xiàn)關(guān)于本課程的預(yù)備知識(shí)Linux:懂基本操作Java:能看懂Java程序Hadoop是什么?面向大數(shù)據(jù)處理擅長(zhǎng)離線數(shù)據(jù)分析分布式文件系統(tǒng)+計(jì)算框架Hadoop不是數(shù)據(jù)庫,Hbase才是數(shù)據(jù)庫Hadoop是一個(gè)快速進(jìn)化的生態(tài)系統(tǒng)Hadoop會(huì)使用在哪些行業(yè)?大數(shù)據(jù)平臺(tái)知識(shí)線路圖Hadoop典型職位運(yùn)維Hadoop程序員(M-R,源代碼)架構(gòu)師數(shù)據(jù)倉庫工程師課程目標(biāo)部署:Hadoop,Hbase,Hive,Pig數(shù)據(jù)集成:Sqoop,與Oracle、Mysql等關(guān)系型數(shù)據(jù)庫集成,與應(yīng)用集成,與R等常用數(shù)據(jù)分析工具集成掌握HDFS原理和基
2、本操作掌握Map-Reduce工作原理,知道怎樣把M-R算法用于解決實(shí)際場(chǎng)景能書寫基本的Map-Reduce程序了解整個(gè)Hadoop生態(tài)系統(tǒng)的各個(gè)子產(chǎn)品,知道在大數(shù)據(jù)平臺(tái)架構(gòu)時(shí)應(yīng)該使用哪些產(chǎn)品具備初步閱讀源代碼的能力提綱Hadoop簡(jiǎn)介?Hadoop子項(xiàng)目?Hadoop架構(gòu)?Hadoop分布式文件系統(tǒng)HDFS?分布式數(shù)據(jù)處理MapReduce?Hadoop數(shù)據(jù)管理Hadoop的源起——LuceneDougCutting開創(chuàng)的開源軟件,用java書寫代碼,實(shí)現(xiàn)與Google類似的全文搜索功能,它提供了全文檢索引擎的架構(gòu),包括完整的查詢引擎和索引引擎早期發(fā)布在個(gè)人網(wǎng)站和Source
3、Forge,2001年年底成為apache軟件基金會(huì)jakarta的一個(gè)子項(xiàng)目Lucene的目的是為軟件開發(fā)人員提供一個(gè)簡(jiǎn)單易用的工具包,以方便的在目標(biāo)系統(tǒng)中實(shí)現(xiàn)全文檢索的功能,或者是以此為基礎(chǔ)建立起完整的全文檢索引擎對(duì)于大數(shù)量的場(chǎng)景,Lucene面對(duì)與Google同樣的困難。迫使DougCutting學(xué)習(xí)和模仿Google解決這些問題的辦法一個(gè)微縮版:Nutch從lucene到nutch,從nutch到hadoop2003-2004年,Google公開了部分GFS和Mapreduce思想的細(xì)節(jié),以此為基礎(chǔ)DougCutting等人用了2年業(yè)余時(shí)間實(shí)現(xiàn)了DFS和Mapreduc
4、e機(jī)制,使Nutch性能飆升Yahoo招安DougCutting及其項(xiàng)目Hadoop于2005年秋天作為L(zhǎng)ucene的子項(xiàng)目Nutch的一部分正式引入Apache基金會(huì)。2006年3月份,Map-Reduce和NutchDistributedFileSystem(NDFS)分別被納入稱為Hadoop的項(xiàng)目中2008年4月,Hadoop成為世界上最快的TB級(jí)數(shù)據(jù)排序系統(tǒng)。名字來源于DougCutting兒子的玩具大象Hadoop簡(jiǎn)介Hadoop——Apache開源組織的一個(gè)分布式計(jì)算框架,可以在大量廉價(jià)的硬件設(shè)備組成的集群上運(yùn)行應(yīng)用程序,為應(yīng)用程序提供了一組穩(wěn)定可靠的接口,旨在構(gòu)
5、建一個(gè)具有高可靠性和良好擴(kuò)展性的分布式系統(tǒng)Hadoop云計(jì)算系統(tǒng)Google云計(jì)算系統(tǒng)HadoopHDFS分布式文件系統(tǒng)GoogleGFSHadoopMapReduce分布式處理模型GoogleMapReduceHadoopHBase分布式數(shù)據(jù)庫GoogleBigtableHadoopZooKeeper解決分布式系統(tǒng)的一致性問題GoogleChubbyHadoopPig高級(jí)數(shù)據(jù)流語言GoogleSawzallHadoop云計(jì)算系統(tǒng)與Google云計(jì)算系統(tǒng)Hadoop優(yōu)點(diǎn)1、高可靠性HDFS分布式文件系統(tǒng)采用了備份恢復(fù)機(jī)制及MapReduce中的任務(wù)采用了監(jiān)控機(jī)制,存儲(chǔ)采用按位存
6、儲(chǔ)。2、高擴(kuò)展性Hadoop是在可用的計(jì)算機(jī)集群間進(jìn)行數(shù)據(jù)的分配的,能擴(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。不管是存儲(chǔ)還是計(jì)算,可擴(kuò)展性都是其設(shè)計(jì)根本所在。3、經(jīng)濟(jì)性Hadoop可以運(yùn)行在廉價(jià)的PC上。4、高容錯(cuò)性Hadoop采用自動(dòng)保存數(shù)據(jù)的多個(gè)副本方式,并能自動(dòng)為失敗的任務(wù)進(jìn)行重新分配。(冗余副本機(jī)制)5、高效性目前Hadoop達(dá)到的高度?實(shí)現(xiàn)云計(jì)算的事實(shí)標(biāo)準(zhǔn)開源軟件。?包含數(shù)十個(gè)具有強(qiáng)大生命力的子項(xiàng)目。?已經(jīng)能在數(shù)千節(jié)點(diǎn)上運(yùn)行,處理數(shù)據(jù)量和排序時(shí)間不斷打破世界紀(jì)錄。Hadoop子項(xiàng)目家族Hadoop簡(jiǎn)介Hadoop項(xiàng)目組成?(1)HadoopCommon是為Hadoop其他子項(xiàng)目提供支
7、持的常用工具,為廉價(jià)硬件上搭建云計(jì)算環(huán)境提供基本的服務(wù)。?(2)Avro用于數(shù)據(jù)序列化的系統(tǒng),提供了豐富的數(shù)據(jù)結(jié)構(gòu)類型、快速可壓縮的二進(jìn)制數(shù)據(jù)格式、存儲(chǔ)持久性數(shù)據(jù)的文件集、遠(yuǎn)程調(diào)用RPC的功能和簡(jiǎn)單的動(dòng)態(tài)語言集成功能。?(3)Chukwa開源的用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng)。?(4)HBase分布式開源數(shù)據(jù)庫。?(5)HDFS分布式文件系統(tǒng)?(6)Hive數(shù)據(jù)倉庫分析系統(tǒng)?(7)MapReduce簡(jiǎn)化的分布式編程模式。?(8)Pig用于并行計(jì)算的高級(jí)數(shù)據(jù)流語言和執(zhí)行框架。?(9)Zoo