基于hadoop的云存儲

基于hadoop的云存儲

ID:20515628

大?。?73.87 KB

頁數(shù):14頁

時間:2018-10-13

基于hadoop的云存儲_第1頁
基于hadoop的云存儲_第2頁
基于hadoop的云存儲_第3頁
基于hadoop的云存儲_第4頁
基于hadoop的云存儲_第5頁
資源描述:

《基于hadoop的云存儲》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、1基于Hadoop的云存儲云計算隨時隨地訪問您的應(yīng)用2云存儲的數(shù)據(jù)管理特點(diǎn)與挑戰(zhàn)特點(diǎn)挑戰(zhàn)計算資源是可伸縮的數(shù)據(jù)具有備份數(shù)據(jù)存儲在大量分布的節(jié)點(diǎn)之上數(shù)據(jù)的自我管理和自調(diào)優(yōu)基于大量節(jié)點(diǎn)的查詢優(yōu)化算法基于大量節(jié)點(diǎn)的索引結(jié)構(gòu)資源調(diào)度和負(fù)載均衡多租戶情況3我們面臨的問題您如何來管理大量的應(yīng)用程序?運(yùn)行任務(wù)來處理100百萬兆字節(jié)的數(shù)據(jù)花費(fèi)11天在一臺電腦上讀取數(shù)據(jù)需要大量低價的計算機(jī)故障處理速度問題(15分鐘修復(fù)1000臺計算機(jī)),但…可靠性問題在大型計算機(jī)集群中,每天都有計算機(jī)出現(xiàn)故障集群的規(guī)模不斷變化需要通用

2、的基礎(chǔ)架構(gòu)必須是高效且可靠的4解決方案開源的Apache項(xiàng)目Hadoop主要包括:DistributedFileSystem–分布的數(shù)據(jù)Map/Reduce–分布的應(yīng)用程序使用Java開發(fā)運(yùn)行在Linux,MacOS/X,Windows,andSolaris廉價的硬件設(shè)備5Typicallyin2levelarchitectureNodesarecommodityPCs40nodes/rackUplinkfromrackis8gigabitRack-internalis1gigabitHardware

3、ClusterofHadoop6DistributedFileSystemSinglenamespaceforentireclusterManagedbyasinglenamenode.Filesaresingle-writerandappend-only.Optimizedforstreamingreadsoflargefiles.Filesarebrokenintolargeblocks.Typically128MBReplicatedtoseveraldatanodes,forreliabili

4、tyAccessfromJava,C,orcommandline.7BlockPlacementDefaultis3replicas,butsettableBlocksareplaced(writesarepipelined):OnsamenodeOndifferentrackOntheotherrackClientsreadfromclosestreplicaIfthereplicationforablockdropsbelowtarget,itisautomaticallyre-replicate

5、d.8HowisYahoousingHadoop?StartedwithbuildingbetterapplicationsScaleupwebscalebatchapplications(search,ads,…)Factoroutcommoncodefromexistingsystems,sonewapplicationswillbeeasiertowriteManagethemanyclusters9RunningProductionWebMapSearchneedsagraphofthe“kn

6、own”webInvertedges,computelinktext,wholegraphheuristicsPeriodicbatchjobusingMap/ReduceUsesachainof~100map/reducejobsScale1trillionedgesingraphLargestshuffleis450TBFinaloutputis300TBcompressedRunson10,000coresRawdiskused5PB10TerabyteSortBenchmarkStartedb

7、yJimGrayatMicrosoftin1998Sorting10billion100byterecordsHadoopwonthegeneralcategoryin209seconds910nodes2quad-coreXeons@2.0Ghz/node4SATAdisks/node8GBram/node1gbethernet/node40nodes/rack8gbethernetuplink/rackPreviousrecordswas297seconds11HadoopclustersWeha

8、ve~20,000machinesrunningHadoopOurlargestclustersarecurrently2000nodesSeveralpetabytesofuserdata(compressed,unreplicated)Werunhundredsofthousandsofjobseverymonth12ResearchClusterUsage13WhoUsesHadoop?Amazon/A9AOLFacebookFoxinteract

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。