資源描述:
《大數(shù)據(jù)環(huán)境下GIS技術(shù)發(fā)展研究.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、科技創(chuàng)新與應(yīng)用I2015年第10期科技創(chuàng)新大數(shù)據(jù)環(huán)境下GIS技術(shù)發(fā)展研究沈松雨(廣州南方測(cè)繪儀器有限公司,廣東廣州510665)摘要:大數(shù)據(jù)環(huán)境下GIS處在數(shù)據(jù)體量大、數(shù)據(jù)急劇膨脹、數(shù)據(jù)源多樣、數(shù)據(jù)不精確、數(shù)據(jù)價(jià)值密度低的環(huán)境。描述大數(shù)據(jù)環(huán)境下GIS數(shù)據(jù)顯著特征;探討大數(shù)據(jù)環(huán)境下GIS技術(shù)在數(shù)據(jù)采集、存儲(chǔ)、分析處理等三個(gè)方面存在的挑戰(zhàn);展望面對(duì)這些挑戰(zhàn)GIS技術(shù)應(yīng)存儲(chǔ)去結(jié)構(gòu)化、計(jì)算內(nèi)存化、分析去模型化、地圖全息化發(fā)展趨勢(shì)。關(guān)鍵詞:大數(shù)據(jù);GIS;Hadoop;Spark;去模型化引言統(tǒng)的GIS空間數(shù)據(jù)存儲(chǔ)方式不但難以擴(kuò)展,而且隨著數(shù)據(jù)的激增讀寫(xiě)隨著移動(dòng)互聯(lián)網(wǎng)、智慧城市、物聯(lián)網(wǎng)、云
2、計(jì)算等前沿科學(xué)技術(shù)的快性能存在極大瓶頸。速發(fā)展,數(shù)據(jù)采集方式也不斷擴(kuò)展,越來(lái)越多的物體成為傳感器,諸如在傳統(tǒng)的分布式空間數(shù)據(jù)庫(kù)環(huán)境下數(shù)據(jù)雖然可以存放在同節(jié)手機(jī)、手環(huán)、手表、眼鏡等越來(lái)越多的日常用品成為數(shù)據(jù)的生產(chǎn)工具。點(diǎn)上,但這種相對(duì)傳統(tǒng)的分布式文件系統(tǒng)所支持的擴(kuò)展性有限,針對(duì)在此背景下,數(shù)據(jù)量呈爆發(fā)式增長(zhǎng)。2013年中國(guó)產(chǎn)生的數(shù)據(jù)總量超過(guò)GIS大體量、多樣性的空間數(shù)據(jù)存儲(chǔ)問(wèn)題仍需深入研究,從而尋找更0.8ZB(相當(dāng)于8億TB),是2012年所產(chǎn)生的數(shù)據(jù)總量的2倍,相當(dāng)于加有效的方案。2009年全球的數(shù)據(jù)總量l】。2014年中國(guó)所產(chǎn)生的數(shù)據(jù)則相當(dāng)于20122.3大數(shù)據(jù)環(huán)境下的GIS
3、空間分析年產(chǎn)生數(shù)據(jù)總量的1O倍,即超過(guò)8ZB,而全球產(chǎn)生的數(shù)據(jù)總量將超大數(shù)據(jù)環(huán)境下是處處連接的時(shí)代,英特爾預(yù)測(cè)2020年全球?qū)⒂?0ZB。數(shù)據(jù)量的爆發(fā)式增長(zhǎng)督促我們快速邁人大數(shù)據(jù)時(shí)代。500億個(gè)連接。每個(gè)連接都是一個(gè)傳感器,這些傳感器無(wú)時(shí)無(wú)刻都存1GIS空間數(shù)據(jù)的大數(shù)據(jù)特征進(jìn)行采集數(shù)據(jù),其自身狀態(tài)也隨著社會(huì)環(huán)境、自然環(huán)境的變化而變化。具體什么是大數(shù)據(jù)不同的組織給出的定義也不盡相同,普遍來(lái)說(shuō)這樣的背景下,迫切需要GIS能夠做到低延遲的分析處理工作,因?yàn)榇髷?shù)據(jù)指的是無(wú)法通過(guò)現(xiàn)有的軟件工具采集、存儲(chǔ)和分析處理的數(shù)據(jù)分析模型也需要隨著變化而動(dòng)態(tài)變化。集合。業(yè)界通常用5V(Volume、V
4、ariety、Velocity、Veracity、Value)特征另外大體量和多樣性的GIS數(shù)據(jù)同樣給分析處理帶來(lái)巨大挑戰(zhàn)。來(lái)概括大數(shù)據(jù)的顯著特征。爆發(fā)式增長(zhǎng)的數(shù)據(jù)中80%與空間位置有數(shù)據(jù)體量越大,分析模型的建立就越困難,加上GIS數(shù)據(jù)包含街景地關(guān),這些GIS空間數(shù)據(jù)的大數(shù)據(jù)特征同樣可以用5V來(lái)概括。圖、遙感影像、矢量數(shù)據(jù)等多樣性的、價(jià)值密度很低數(shù)據(jù),從中快速提Volume(數(shù)據(jù)量):即數(shù)據(jù)體量大,大量TB級(jí)以上數(shù)據(jù)需要采集、存儲(chǔ)、煉有價(jià)值數(shù)據(jù)無(wú)疑是一項(xiàng)無(wú)比艱巨的任務(wù)。分析處理,如一個(gè)地級(jí)市的基礎(chǔ)地理信息數(shù)據(jù)。3大數(shù)據(jù)環(huán)境下GIS技術(shù)發(fā)展Velocity(速度):即數(shù)據(jù)產(chǎn)生的速率
5、很快,目前數(shù)據(jù)正以ms甚至大數(shù)據(jù)環(huán)境下GIS數(shù)據(jù)體量大、增長(zhǎng)速度快、形態(tài)多樣、不精確、微秒計(jì)的流數(shù)據(jù)源源不斷地快速產(chǎn)生,因此對(duì)數(shù)據(jù)處理的實(shí)時(shí)性要求價(jià)值密度低等諸多特征必將引起GIS數(shù)據(jù)采集、存貯、分析等階段的也越來(lái)越更高。變革。大數(shù)據(jù)環(huán)境下GIS技術(shù)在空間數(shù)據(jù)采集、存儲(chǔ)、分析處理等方面Variety(多樣性):即數(shù)據(jù)具有多樣性,它包含各種結(jié)構(gòu)化和非結(jié)存在諸多挑戰(zhàn),應(yīng)運(yùn)而生的大數(shù)據(jù)分析技術(shù)則為根本上解決大數(shù)據(jù)環(huán)構(gòu)化數(shù)據(jù),比如屬勝數(shù)據(jù)、矢量數(shù)據(jù)、遙感影像等柵格數(shù)據(jù)。境GIS所面臨的挑戰(zhàn)提供了可能。Veracity(真實(shí)):即數(shù)據(jù)具有不精確性,因?yàn)閿?shù)據(jù)存在噪音、歧義3.1存儲(chǔ)去結(jié)構(gòu)化甚
6、至是缺失,從而導(dǎo)致數(shù)據(jù)信息模糊,給數(shù)據(jù)的處理帶來(lái)諸多不利影相對(duì)于有限的數(shù)據(jù)集,大體量數(shù)據(jù)需要可擴(kuò)展的數(shù)據(jù)存儲(chǔ)架構(gòu),響以滿足數(shù)據(jù)無(wú)限增長(zhǎng)的需要。針對(duì)大數(shù)據(jù)時(shí)代GIS數(shù)據(jù)的多樣性,諸Value(價(jià)值):即價(jià)值密度低,大數(shù)據(jù)中蘊(yùn)含各種信息,但其中有如HBase、Redis、MongoDB、InfoGrid等非關(guān)系型(NoSQI)數(shù)據(jù)庫(kù)顯然價(jià)值的數(shù)據(jù)占比較低,從中挖掘出有價(jià)值的數(shù)據(jù)是一種挑戰(zhàn)。是不錯(cuò)的選擇。2大數(shù)據(jù)環(huán)境下G1S面f臨的挑戰(zhàn)這些數(shù)據(jù)庫(kù)存儲(chǔ)不需要預(yù)先定義模式,并且可在系統(tǒng)運(yùn)行的時(shí)候自RogerTomlinson博士于1963年首次提出地理信息系統(tǒng)(Geo—?jiǎng)討B(tài)增加或刪除節(jié)點(diǎn),
7、避免停機(jī)維護(hù),提高了拓展性和可靠性;另外非graphicIntormationSystems)概念之后,GIS技術(shù)一直都在快速發(fā)展。關(guān)系型數(shù)據(jù)庫(kù)沒(méi)有共享架構(gòu),數(shù)據(jù)往往被劃分后存儲(chǔ)在各個(gè)本地服務(wù)GIS技術(shù)現(xiàn)已廣泛應(yīng)用于環(huán)境監(jiān)測(cè)、國(guó)土資源管理、城市規(guī)劃、交通運(yùn)器上,方便就近從本地磁盤上讀取數(shù)據(jù),提高數(shù)據(jù)讀取I生能。輸、公共基礎(chǔ)設(shè)施管理、社交網(wǎng)絡(luò)(SNS)、位置服務(wù)(LBS)等領(lǐng)域,給人3.2計(jì)算內(nèi)存化們生活帶來(lái)很大便利。隨著廣大從業(yè)者對(duì)GIS技術(shù)進(jìn)行不斷的嘗試和Hadoop系統(tǒng)是近幾