資源描述:
《hadoop是什么分布式系統(tǒng)基礎(chǔ)架構(gòu)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、hadoop是什么分布式系統(tǒng)基礎(chǔ)架構(gòu)hadoop是什么?hadoop能冇哪些應(yīng)川?hadoop和大數(shù)據(jù)是什么關(guān)系?下面我們將圍繞這幾個(gè)問題詳細(xì)闡述。hadoop是什么?Hadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ)。Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(HadoopDistributedFileSystem),簡(jiǎn)稱HDFS。HDFS有髙容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來部署在低廉的(low-c
2、ost)硬件上;而且它提供高吞吐量(highthroughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(largedataset)的應(yīng)用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streamingaccess)文件系統(tǒng)中的數(shù)據(jù)。Hadoop的框架最核心的設(shè)計(jì)就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ),則MapReduce為海量的數(shù)據(jù)提供了計(jì)算。項(xiàng)目起源HadoopillApacheSoftwareFoundation公司于2005年秋
3、天作為L(zhǎng)ucene的子項(xiàng)目Nutch的一部分正式引入。它受到最先由GoogleLab開發(fā)的Map/Reduce和GoogleFileSystem(GFS)的啟發(fā)。2006年3月份,Map/Reduce和NutchDistributedFileSystem(NDFS)分別被納入稱為Hadoop的項(xiàng)目中。Hadoop是最受歡迎的在Internet上對(duì)搜索關(guān)鍵字進(jìn)行內(nèi)容分類的工具,但它也可以解決許多要求極大伸縮性的問題。例如,如果您要grep一個(gè)10TB的巨型文件,會(huì)出現(xiàn)什么情況?在傳統(tǒng)的系統(tǒng)上,這將
4、需耍很長(zhǎng)的時(shí)間。但是Hadoop在設(shè)計(jì)時(shí)就考慮到這些問題,采用并行執(zhí)行機(jī)制,因此能大大捉高效率。發(fā)展歷程Hadoop原木來白于谷歌一款名為MapReduce的編程模型包。谷歌的MapReduce框架可以把一個(gè)應(yīng)用程序分解為許多并行計(jì)算指令,跨大量的計(jì)算節(jié)點(diǎn)運(yùn)行非常巨大的數(shù)據(jù)集。使川該框架的一個(gè)典型例子就是在網(wǎng)絡(luò)數(shù)據(jù)上運(yùn)行的搜索算法。Hadoop最初只與網(wǎng)頁索引有關(guān),迅速發(fā)展成為分析大數(shù)據(jù)的領(lǐng)先平臺(tái)。目前有很多公司開始提供基于Hadoop的商業(yè)軟件、支持、服務(wù)以及培訓(xùn)。Cloudera是一家美國的
5、企業(yè)軟件公司,該公司在2008年開始提供基于Hadoop的軟件和服務(wù)。GoGrid是一家云計(jì)算棊礎(chǔ)設(shè)施公司,在2012年,該公司與Cloudera合作加速了企業(yè)采納基于Hadoop應(yīng)用的步伐。Dataguise公司是一家數(shù)據(jù)安全公司,同樣在2012年該公司推出了一款針對(duì)Hadoop的數(shù)據(jù)保護(hù)和風(fēng)險(xiǎn)評(píng)估。Hadoop應(yīng)用案例一全球著名企業(yè)應(yīng)用案例美國國會(huì)圖書館是全球最大的圖書館,自1800年設(shè)立至今,收藏了超過1.5億個(gè)實(shí)體對(duì)象,包括書籍、影音、老地圖、膠卷等,數(shù)字?jǐn)?shù)據(jù)量也達(dá)到T235TB,但美國
6、eBay拍賣網(wǎng)站,8千萬名用戶每天產(chǎn)生的數(shù)據(jù)量就有50TB,5天就相當(dāng)于1座美國國會(huì)圖帖館的容量。在國外,不只eBay這種跨國電子商務(wù)業(yè)者感受到巨量數(shù)據(jù)的沖擊,其他如美國連鎖超市龍頭Wal-Mart、發(fā)行信用卡的Visa公司等,在臺(tái)灣如臺(tái)灣集成電路(臺(tái)積電)、小華電信等手上擁有人最顧客資料的企業(yè),都紛紛感受到這股如海嘯般來襲的BigData巨最資料浪潮。這樣的巨量數(shù)據(jù)并非是沒冇價(jià)值的數(shù)據(jù),其中潛藏了許多使川者親身經(jīng)驗(yàn)的笫一手原始數(shù)據(jù),不少企業(yè)更是從中嗅到了商機(jī)。這些企業(yè)紛紛向最早面臨大數(shù)據(jù)挑戰(zhàn)的
7、搜索引擎業(yè)者Google.Yahoo取經(jīng),學(xué)習(xí)處理巨量數(shù)據(jù)的技術(shù)和經(jīng)驗(yàn),具屮,最受這些金業(yè)青睞,用來解決巨量數(shù)據(jù)難題的技術(shù)就是Apache基金會(huì)的分布式計(jì)算技術(shù)Hadoop項(xiàng)冃。Hadoop應(yīng)用案例1■全球最大超市業(yè)者Wal-MartWal-Mart分析顧客商品搜索行為,找出超越競(jìng)爭(zhēng)對(duì)手的商機(jī)全球最大連鎖超帀Wal-Mart利用Hadoop來分析顧客搜尋商品的彳亍為,以及用戶透過搜索引擎尋找到Wal-Mart網(wǎng)站的關(guān)鍵詞,利用這些關(guān)鍵詞的分析結(jié)果發(fā)掘顧客需求,以規(guī)畫下—季商品的促銷策略,其至打算
8、分析顧客在Facebook、Twitter等社交網(wǎng)站上對(duì)商品的討論,期望能比競(jìng)爭(zhēng)對(duì)手提前一步發(fā)現(xiàn)顧客需求。Wal-Mart雖然十年前就投入在線電了商務(wù),但在線銷售的營收遠(yuǎn)遠(yuǎn)落后于Amazon。后來,Wal-Mart決定采用Hadoop來分析顧客搜尋商品的行為,以及用戶透過搜索引擎尋找到Wal-Mart網(wǎng)站的關(guān)鍵詞,利川這些關(guān)鍵詞的分析結(jié)果發(fā)掘顧客需求,以規(guī)應(yīng)下一季商品的促銷策略。他們并進(jìn)一步打算要分析顧客在Facebook、Twitter等社交網(wǎng)站上對(duì)商品的討論,甚至Wal-Mart能比父親更快