第1講：初識(shí)hadoop

ID：1476047

大小：1.96 MB

頁數(shù)：45頁

時(shí)間：2017-11-11

資源描述：

《第1講：初識(shí)hadoop》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、第1講Hadoop：Google云計(jì)算的開源實(shí)現(xiàn)關(guān)于本課程的預(yù)備知識(shí)Linux：懂基本操作Java：能看懂Java程序Hadoop是什么？面向大數(shù)據(jù)處理擅長(zhǎng)離線數(shù)據(jù)分析分布式文件系統(tǒng)+計(jì)算框架Hadoop不是數(shù)據(jù)庫，Hbase才是數(shù)據(jù)庫Hadoop是一個(gè)快速進(jìn)化的生態(tài)系統(tǒng)Hadoop會(huì)使用在哪些行業(yè)？大數(shù)據(jù)平臺(tái)知識(shí)線路圖Hadoop典型職位運(yùn)維Hadoop程序員（M-R，源代碼）架構(gòu)師數(shù)據(jù)倉庫工程師課程目標(biāo)部署：Hadoop，Hbase，Hive，Pig數(shù)據(jù)集成：Sqoop，與Oracle、Mysql等關(guān)系型數(shù)據(jù)庫集成，與應(yīng)用集成，與R等常用數(shù)據(jù)分析工具集成掌握HDFS原理和基

2、本操作掌握Map-Reduce工作原理，知道怎樣把M-R算法用于解決實(shí)際場(chǎng)景能書寫基本的Map-Reduce程序了解整個(gè)Hadoop生態(tài)系統(tǒng)的各個(gè)子產(chǎn)品，知道在大數(shù)據(jù)平臺(tái)架構(gòu)時(shí)應(yīng)該使用哪些產(chǎn)品具備初步閱讀源代碼的能力提綱Hadoop簡(jiǎn)介?Hadoop子項(xiàng)目?Hadoop架構(gòu)?Hadoop分布式文件系統(tǒng)HDFS?分布式數(shù)據(jù)處理MapReduce?Hadoop數(shù)據(jù)管理Hadoop的源起——LuceneDougCutting開創(chuàng)的開源軟件，用java書寫代碼，實(shí)現(xiàn)與Google類似的全文搜索功能，它提供了全文檢索引擎的架構(gòu)，包括完整的查詢引擎和索引引擎早期發(fā)布在個(gè)人網(wǎng)站和Source

3、Forge，2001年年底成為apache軟件基金會(huì)jakarta的一個(gè)子項(xiàng)目Lucene的目的是為軟件開發(fā)人員提供一個(gè)簡(jiǎn)單易用的工具包，以方便的在目標(biāo)系統(tǒng)中實(shí)現(xiàn)全文檢索的功能，或者是以此為基礎(chǔ)建立起完整的全文檢索引擎對(duì)于大數(shù)量的場(chǎng)景，Lucene面對(duì)與Google同樣的困難。迫使DougCutting學(xué)習(xí)和模仿Google解決這些問題的辦法一個(gè)微縮版：Nutch從lucene到nutch，從nutch到hadoop2003-2004年，Google公開了部分GFS和Mapreduce思想的細(xì)節(jié)，以此為基礎(chǔ)DougCutting等人用了2年業(yè)余時(shí)間實(shí)現(xiàn)了DFS和Mapreduc

4、e機(jī)制，使Nutch性能飆升Yahoo招安DougCutting及其項(xiàng)目Hadoop于2005年秋天作為L(zhǎng)ucene的子項(xiàng)目Nutch的一部分正式引入Apache基金會(huì)。2006年3月份，Map-Reduce和NutchDistributedFileSystem(NDFS)分別被納入稱為Hadoop的項(xiàng)目中2008年4月，Hadoop成為世界上最快的TB級(jí)數(shù)據(jù)排序系統(tǒng)。名字來源于DougCutting兒子的玩具大象Hadoop簡(jiǎn)介Hadoop——Apache開源組織的一個(gè)分布式計(jì)算框架，可以在大量廉價(jià)的硬件設(shè)備組成的集群上運(yùn)行應(yīng)用程序，為應(yīng)用程序提供了一組穩(wěn)定可靠的接口，旨在構(gòu)

5、建一個(gè)具有高可靠性和良好擴(kuò)展性的分布式系統(tǒng)Hadoop云計(jì)算系統(tǒng)Google云計(jì)算系統(tǒng)HadoopHDFS分布式文件系統(tǒng)GoogleGFSHadoopMapReduce分布式處理模型GoogleMapReduceHadoopHBase分布式數(shù)據(jù)庫GoogleBigtableHadoopZooKeeper解決分布式系統(tǒng)的一致性問題GoogleChubbyHadoopPig高級(jí)數(shù)據(jù)流語言GoogleSawzallHadoop云計(jì)算系統(tǒng)與Google云計(jì)算系統(tǒng)Hadoop優(yōu)點(diǎn)1、高可靠性HDFS分布式文件系統(tǒng)采用了備份恢復(fù)機(jī)制及MapReduce中的任務(wù)采用了監(jiān)控機(jī)制，存儲(chǔ)采用按位存

6、儲(chǔ)。2、高擴(kuò)展性Hadoop是在可用的計(jì)算機(jī)集群間進(jìn)行數(shù)據(jù)的分配的，能擴(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。不管是存儲(chǔ)還是計(jì)算，可擴(kuò)展性都是其設(shè)計(jì)根本所在。3、經(jīng)濟(jì)性Hadoop可以運(yùn)行在廉價(jià)的PC上。4、高容錯(cuò)性Hadoop采用自動(dòng)保存數(shù)據(jù)的多個(gè)副本方式，并能自動(dòng)為失敗的任務(wù)進(jìn)行重新分配。（冗余副本機(jī)制）5、高效性目前Hadoop達(dá)到的高度?實(shí)現(xiàn)云計(jì)算的事實(shí)標(biāo)準(zhǔn)開源軟件。?包含數(shù)十個(gè)具有強(qiáng)大生命力的子項(xiàng)目。?已經(jīng)能在數(shù)千節(jié)點(diǎn)上運(yùn)行，處理數(shù)據(jù)量和排序時(shí)間不斷打破世界紀(jì)錄。Hadoop子項(xiàng)目家族Hadoop簡(jiǎn)介Hadoop項(xiàng)目組成?（1）HadoopCommon是為Hadoop其他子項(xiàng)目提供支

7、持的常用工具，為廉價(jià)硬件上搭建云計(jì)算環(huán)境提供基本的服務(wù)。?（2）Avro用于數(shù)據(jù)序列化的系統(tǒng)，提供了豐富的數(shù)據(jù)結(jié)構(gòu)類型、快速可壓縮的二進(jìn)制數(shù)據(jù)格式、存儲(chǔ)持久性數(shù)據(jù)的文件集、遠(yuǎn)程調(diào)用RPC的功能和簡(jiǎn)單的動(dòng)態(tài)語言集成功能。?（3）Chukwa開源的用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng)。?（4）HBase分布式開源數(shù)據(jù)庫。?（5）HDFS分布式文件系統(tǒng)?（6）Hive數(shù)據(jù)倉庫分析系統(tǒng)?（7）MapReduce簡(jiǎn)化的分布式編程模式。?（8）Pig用于并行計(jì)算的高級(jí)數(shù)據(jù)流語言和執(zhí)行框架。?（9）Zoo

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 45



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

第1講：初識(shí)hadoop

第1講：初識(shí)hadoop

相關(guān)文章

相關(guān)標(biāo)簽