Hadoop與空間大數(shù)據(jù)挖掘分析

Hadoop與空間大數(shù)據(jù)挖掘分析

ID:5351900

大?。?1.49 MB

頁(yè)數(shù):50頁(yè)

時(shí)間:2017-12-08

Hadoop與空間大數(shù)據(jù)挖掘分析_第1頁(yè)
Hadoop與空間大數(shù)據(jù)挖掘分析_第2頁(yè)
Hadoop與空間大數(shù)據(jù)挖掘分析_第3頁(yè)
Hadoop與空間大數(shù)據(jù)挖掘分析_第4頁(yè)
Hadoop與空間大數(shù)據(jù)挖掘分析_第5頁(yè)
資源描述:

《Hadoop與空間大數(shù)據(jù)挖掘分析》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、歡迎光臨Hadoop與空間大數(shù)據(jù)挖掘分析易智瑞(中國(guó))盧萌內(nèi)容提要?數(shù)據(jù)統(tǒng)治的世界?大數(shù)據(jù)與空間大數(shù)據(jù)?Hadoop與ArcGIS的碰撞?數(shù)據(jù)的掘金之旅?我們的大數(shù)據(jù)夢(mèng)數(shù)據(jù)統(tǒng)治的世界GIS-TransformingourWorld文明載體的演化數(shù)字天然文字印刷電子化數(shù)字化生存的時(shí)代數(shù)字化帶來(lái)的信息爆炸名稱(chēng):亞歷山大圖書(shū)館時(shí)間:始建于托勒密一世(約公元前367-前283年)說(shuō)明:是世界上最古老的圖書(shū)館之一。館內(nèi)收藏了貫穿公元前400-前300年時(shí)期的手稿,擁有最豐富的古籍收藏,有據(jù)可考的圖書(shū)超過(guò)50000卷。號(hào)稱(chēng)“收集全世界的書(shū)”,實(shí)現(xiàn)“世界知識(shí)總匯”的夢(mèng)想。谷歌數(shù)字化圖書(shū)計(jì)劃名稱(chēng):谷

2、歌數(shù)字化圖書(shū)計(jì)劃時(shí)間:2004年說(shuō)明:2004年,谷歌攜手哈佛大學(xué)、斯坦福大學(xué)、密歇根大學(xué)、牛津大學(xué)和紐約公共圖書(shū)館,共推圖書(shū)數(shù)字化,到2010年,已經(jīng)完成了2000萬(wàn)冊(cè)數(shù)字化圖書(shū),幾乎相當(dāng)于人類(lèi)書(shū)寫(xiě)文明的15%。數(shù)字統(tǒng)治著我們的世界大數(shù)據(jù)與空間大數(shù)據(jù)GIS-TransformingourWorld大數(shù)據(jù)的起源最早是由天文學(xué)和基因?qū)W創(chuàng)造出了“大數(shù)據(jù)”這一概念?!蹲匀弧?008年《大數(shù)據(jù)專(zhuān)刊》一張哈勃望遠(yuǎn)鏡捕捉下來(lái)的高清相片,高達(dá)數(shù)十個(gè)G字節(jié)早期的大數(shù)據(jù)早期,這個(gè)概念是指需要處理的信息量過(guò)大,已經(jīng)超出了一般電腦在處理數(shù)據(jù)時(shí)所能使用的內(nèi)存量。大數(shù)據(jù)與海量數(shù)據(jù)大數(shù)據(jù)海量數(shù)據(jù)4V特性?V

3、olume數(shù)據(jù)量?Velocity多樣性?Variety速度?Value價(jià)值數(shù)據(jù)量Volume1,128,242XY(32bit)(32bit)68MB多樣性Variety缺省屬性值連通性規(guī)則屬性值取值域關(guān)聯(lián)規(guī)則分割/合并方針拓?fù)湟?guī)則FeaturedatasetTableFeatureclassViewRastercatalogRasterdatasetMultipatchMosaicdatasetSchematicdatasetRelationshipclassLASdatasetTopologyPythonToolboxGeometricnetworkAddressLocator

4、ToolboxNetworkdatasettoolsetScriptTerrainToolModelParcelFabricSpatialETL多維的數(shù)據(jù)視角速度Velocity并行處理因子互聯(lián)網(wǎng)公司的數(shù)據(jù)洪流?Google每天需要處理超過(guò)24PB的數(shù)據(jù)——等于美國(guó)國(guó)家圖書(shū)館書(shū)籍總量的上千倍?Facebook每天更新的相片超過(guò)1000萬(wàn)張,每天人們發(fā)送的“贊”或者書(shū)寫(xiě)的評(píng)論超過(guò)三十億次。?Twitter每天發(fā)布的微博超過(guò)4億條。價(jià)值Value“今天,地理空間信息被越來(lái)越多的企業(yè)認(rèn)為是企業(yè)的戰(zhàn)略資產(chǎn)。地理空間信息的處理、存儲(chǔ)和分析已成為商務(wù)智慧的重要組成部分?!?--JackDange

5、rmondHadoop與ArcGIS的碰撞GIS-TransformingourWorld更多或者更大古代,人們用牛來(lái)拉重物。當(dāng)一頭牛拉不動(dòng)一根圓木時(shí),他們想的并不是培育更大更壯的牛。同樣,我們也不需要?jiǎng)虞m使用超級(jí)計(jì)算機(jī),而應(yīng)試著結(jié)合使用更多計(jì)算機(jī)系統(tǒng)。格蕾絲·莫里·霍珀(GraceMurrayHopper)(1906--1992)谷歌的廉價(jià)PC集群Google通過(guò)他天才的軟件架構(gòu)設(shè)計(jì),把成千上萬(wàn)臺(tái)普通的PC機(jī)做成了一個(gè)廉價(jià)大型的集群,用以處理他面向“星球”級(jí)別的搜索服務(wù)。UtahDataCenter名稱(chēng):UtahDataCenter(猶他數(shù)據(jù)中心)全稱(chēng):IntelligenceCo

6、mmunityComprehensiveNationalCybersecurityInitiativeDataCenter(情報(bào)體系綜合性國(guó)家計(jì)算機(jī)安全計(jì)劃數(shù)據(jù)中心)所屬機(jī)構(gòu):NAS(美國(guó)國(guó)家安全局)不得不說(shuō)的hadoophadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會(huì)開(kāi)發(fā)。用戶(hù)可以在不了解分布式底層細(xì)節(jié)的情況下,開(kāi)發(fā)分布式程序。充分利用集群的威力高速運(yùn)算和存儲(chǔ)。Hadoop生態(tài)系統(tǒng)示意圖BIETLToolsRDBMSReportingPigHive(SQL)Sqoop)(DataFlow)noti)aMapReduce(JobScheduling/Executionnin

7、otidrSystem)aozliocia(rHbase(ColumnDB)reeSp(eorevkAooHDFSZ(HadoopDistributedFileSystem)HDFS用戶(hù)NameNodeMetadataDataNodeDataNodeDataNode數(shù)據(jù)1數(shù)據(jù)2Hadoop處理原理假設(shè)系統(tǒng)每秒處理4000個(gè)文件10000秒處理4千萬(wàn)約為2.7小個(gè)文件=時(shí)處理400萬(wàn)約為17分=切個(gè)文件鐘分成處理400萬(wàn)約為17分結(jié)處理4千萬(wàn)十個(gè)文件=鐘果臺(tái)

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳,版權(quán)歸屬用戶(hù),天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。