Hadoop與空間大數(shù)據(jù)挖掘分析

Hadoop與空間大數(shù)據(jù)挖掘分析

ID:5351900

大?。?1.49 MB

頁數(shù):50頁

時間:2017-12-08

Hadoop與空間大數(shù)據(jù)挖掘分析_第1頁
Hadoop與空間大數(shù)據(jù)挖掘分析_第2頁
Hadoop與空間大數(shù)據(jù)挖掘分析_第3頁
Hadoop與空間大數(shù)據(jù)挖掘分析_第4頁
Hadoop與空間大數(shù)據(jù)挖掘分析_第5頁
資源描述:

《Hadoop與空間大數(shù)據(jù)挖掘分析》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫

1、歡迎光臨Hadoop與空間大數(shù)據(jù)挖掘分析易智瑞(中國)盧萌內(nèi)容提要?數(shù)據(jù)統(tǒng)治的世界?大數(shù)據(jù)與空間大數(shù)據(jù)?Hadoop與ArcGIS的碰撞?數(shù)據(jù)的掘金之旅?我們的大數(shù)據(jù)夢數(shù)據(jù)統(tǒng)治的世界GIS-TransformingourWorld文明載體的演化數(shù)字天然文字印刷電子化數(shù)字化生存的時代數(shù)字化帶來的信息爆炸名稱:亞歷山大圖書館時間:始建于托勒密一世(約公元前367-前283年)說明:是世界上最古老的圖書館之一。館內(nèi)收藏了貫穿公元前400-前300年時期的手稿,擁有最豐富的古籍收藏,有據(jù)可考的圖書超過50000卷。號稱“收集全世界的書”,實(shí)現(xiàn)“世界知識總匯”的夢想。谷歌數(shù)字化圖書計(jì)劃名稱:谷

2、歌數(shù)字化圖書計(jì)劃時間:2004年說明:2004年,谷歌攜手哈佛大學(xué)、斯坦福大學(xué)、密歇根大學(xué)、牛津大學(xué)和紐約公共圖書館,共推圖書數(shù)字化,到2010年,已經(jīng)完成了2000萬冊數(shù)字化圖書,幾乎相當(dāng)于人類書寫文明的15%。數(shù)字統(tǒng)治著我們的世界大數(shù)據(jù)與空間大數(shù)據(jù)GIS-TransformingourWorld大數(shù)據(jù)的起源最早是由天文學(xué)和基因?qū)W創(chuàng)造出了“大數(shù)據(jù)”這一概念?!蹲匀弧?008年《大數(shù)據(jù)??芬粡埞h(yuǎn)鏡捕捉下來的高清相片,高達(dá)數(shù)十個G字節(jié)早期的大數(shù)據(jù)早期,這個概念是指需要處理的信息量過大,已經(jīng)超出了一般電腦在處理數(shù)據(jù)時所能使用的內(nèi)存量。大數(shù)據(jù)與海量數(shù)據(jù)大數(shù)據(jù)海量數(shù)據(jù)4V特性?V

3、olume數(shù)據(jù)量?Velocity多樣性?Variety速度?Value價(jià)值數(shù)據(jù)量Volume1,128,242XY(32bit)(32bit)68MB多樣性Variety缺省屬性值連通性規(guī)則屬性值取值域關(guān)聯(lián)規(guī)則分割/合并方針拓?fù)湟?guī)則FeaturedatasetTableFeatureclassViewRastercatalogRasterdatasetMultipatchMosaicdatasetSchematicdatasetRelationshipclassLASdatasetTopologyPythonToolboxGeometricnetworkAddressLocator

4、ToolboxNetworkdatasettoolsetScriptTerrainToolModelParcelFabricSpatialETL多維的數(shù)據(jù)視角速度Velocity并行處理因子互聯(lián)網(wǎng)公司的數(shù)據(jù)洪流?Google每天需要處理超過24PB的數(shù)據(jù)——等于美國國家圖書館書籍總量的上千倍?Facebook每天更新的相片超過1000萬張,每天人們發(fā)送的“贊”或者書寫的評論超過三十億次。?Twitter每天發(fā)布的微博超過4億條。價(jià)值Value“今天,地理空間信息被越來越多的企業(yè)認(rèn)為是企業(yè)的戰(zhàn)略資產(chǎn)。地理空間信息的處理、存儲和分析已成為商務(wù)智慧的重要組成部分?!?--JackDange

5、rmondHadoop與ArcGIS的碰撞GIS-TransformingourWorld更多或者更大古代,人們用牛來拉重物。當(dāng)一頭牛拉不動一根圓木時,他們想的并不是培育更大更壯的牛。同樣,我們也不需要動輒使用超級計(jì)算機(jī),而應(yīng)試著結(jié)合使用更多計(jì)算機(jī)系統(tǒng)。格蕾絲·莫里·霍珀(GraceMurrayHopper)(1906--1992)谷歌的廉價(jià)PC集群Google通過他天才的軟件架構(gòu)設(shè)計(jì),把成千上萬臺普通的PC機(jī)做成了一個廉價(jià)大型的集群,用以處理他面向“星球”級別的搜索服務(wù)。UtahDataCenter名稱:UtahDataCenter(猶他數(shù)據(jù)中心)全稱:IntelligenceCo

6、mmunityComprehensiveNationalCybersecurityInitiativeDataCenter(情報(bào)體系綜合性國家計(jì)算機(jī)安全計(jì)劃數(shù)據(jù)中心)所屬機(jī)構(gòu):NAS(美國國家安全局)不得不說的hadoophadoop是一個分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會開發(fā)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力高速運(yùn)算和存儲。Hadoop生態(tài)系統(tǒng)示意圖BIETLToolsRDBMSReportingPigHive(SQL)Sqoop)(DataFlow)noti)aMapReduce(JobScheduling/Executionnin

7、otidrSystem)aozliocia(rHbase(ColumnDB)reeSp(eorevkAooHDFSZ(HadoopDistributedFileSystem)HDFS用戶NameNodeMetadataDataNodeDataNodeDataNode數(shù)據(jù)1數(shù)據(jù)2Hadoop處理原理假設(shè)系統(tǒng)每秒處理4000個文件10000秒處理4千萬約為2.7小個文件=時處理400萬約為17分=切個文件鐘分成處理400萬約為17分結(jié)處理4千萬十個文件=鐘果臺

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。