資源描述:
《大數(shù)據(jù)時(shí)代和大數(shù)據(jù)背景下的科研轉(zhuǎn)變》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、大數(shù)據(jù)時(shí)代和大數(shù)據(jù)背景下的科研轉(zhuǎn)變大數(shù)據(jù)的概念數(shù)據(jù)海量化和數(shù)字化數(shù)據(jù)量的爆發(fā)式、幾何式增長(zhǎng):從人類文明出現(xiàn)到2003年,人類總共才產(chǎn)生了5EB(ExaBytes,1EB=10億GB)的數(shù)據(jù),但是當(dāng)前的人類兩天內(nèi)就創(chuàng)造出了相同的數(shù)據(jù)量,全球90%的數(shù)據(jù)都是在過(guò)去兩年中生成的,到2020年全球數(shù)據(jù)使用量將大概需要376億個(gè)1TB的硬盤進(jìn)行存儲(chǔ)。越來(lái)越多的數(shù)據(jù)存儲(chǔ)為數(shù)字?jǐn)?shù)據(jù):在2000年,數(shù)字存儲(chǔ)信息仍只占全球數(shù)據(jù)量的四分之一;而在2007年,所有數(shù)據(jù)中只有7%是存儲(chǔ)在報(bào)紙、書籍、圖片等媒介上的模擬數(shù)據(jù),其余全部是數(shù)字?jǐn)?shù)據(jù);到2013年,世界上存儲(chǔ)的數(shù)據(jù)預(yù)計(jì)能達(dá)到約1.2ZB(1Z
2、B=1000EB),其中非數(shù)字?jǐn)?shù)據(jù)只占不到2%。數(shù)據(jù)分析和管理效率的大大提高模擬時(shí)代的數(shù)據(jù)收集和分析極其耗時(shí)耗力,新問(wèn)題的出現(xiàn)通常要求我們重新收集和分析數(shù)據(jù)。數(shù)據(jù)數(shù)字化和云計(jì)算技術(shù)的發(fā)展使得數(shù)據(jù)管理效率又向前邁出了重要的一步。數(shù)字化將模擬數(shù)據(jù)轉(zhuǎn)換成計(jì)算機(jī)可以讀取的數(shù)字?jǐn)?shù)據(jù),使得存儲(chǔ)和處理這些數(shù)據(jù)變得既便宜又容易,從而大大提高了數(shù)據(jù)管理效率。大數(shù)據(jù)的4V特征“高容量(Volume)、多樣化(Variety)、快速化(Velocity)、價(jià)值密度低(Value)”就是“大數(shù)據(jù)”的顯著特征,或者說(shuō),只有具備這些特點(diǎn)的數(shù)據(jù),才是大數(shù)據(jù)。量Volume多樣性Variety價(jià)值Value
3、速度Velocity數(shù)據(jù)體量巨大大數(shù)據(jù)的起始計(jì)量單位至少是P(1000個(gè)T)、E(100萬(wàn)個(gè)T)或Z(10億個(gè)T)數(shù)據(jù)的多樣性數(shù)據(jù)類型繁多(文本、圖像、視頻、機(jī)器數(shù)據(jù)、地理位置信息等等)大量的不相關(guān)信息價(jià)值密度低需要強(qiáng)大的計(jì)算技術(shù)進(jìn)行“提純”數(shù)據(jù)產(chǎn)生和更新的頻率快,處理速度快大數(shù)據(jù)時(shí)代的來(lái)臨使人類第一次有機(jī)會(huì)和條件,在非常多的領(lǐng)域和非常深入的層次獲得和使用全面數(shù)據(jù)、完整數(shù)據(jù)和系統(tǒng)數(shù)據(jù),深入探索現(xiàn)實(shí)世界的規(guī)律,獲取過(guò)去不可能獲取的知識(shí),得到過(guò)去無(wú)法企及的商機(jī)。“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)
4、和消費(fèi)者盈余浪潮的到來(lái)。”——全球知名咨詢公司麥肯錫大數(shù)據(jù)時(shí)代數(shù)據(jù)處理思維的三個(gè)轉(zhuǎn)變?nèi)珨?shù)據(jù)模式,而不再依賴于隨機(jī)抽樣很長(zhǎng)一段時(shí)間以來(lái),準(zhǔn)確統(tǒng)計(jì)和分析大量數(shù)據(jù)對(duì)我們而言都是一種挑戰(zhàn),比如人口普查。通常我們只能收集少量數(shù)據(jù)進(jìn)行分析,稱之為抽樣分析。大數(shù)據(jù)是建立在掌握所有數(shù)據(jù),至少是盡可能多的數(shù)據(jù)的基礎(chǔ)上的,使我們能夠更清楚地看到了樣本無(wú)法揭示的細(xì)節(jié)信息并進(jìn)行新的分析。為了贏得與癌癥的斗爭(zhēng),史蒂夫·喬布斯曾花費(fèi)數(shù)十萬(wàn)美元為自己DNA測(cè)序,得到了包括整個(gè)基因密碼的數(shù)據(jù)文檔。這樣,史蒂夫·喬布斯的醫(yī)生們能夠基于喬布斯的特定基因組成,按所需效果用藥。如果癌癥病變導(dǎo)致藥物失效,醫(yī)生可以及時(shí)
5、更換另一種藥,最終這種方式幫助喬布斯延長(zhǎng)了好幾年的生命。喬布斯開(kāi)玩笑說(shuō):“我要么是第一個(gè)通過(guò)這種方式戰(zhàn)勝癌癥的人,要么就是最后一個(gè)因?yàn)檫@種方式死于癌癥的人?!辈辉贌嶂杂谧非缶_度追求精確度的思維方式適用于掌握“小數(shù)據(jù)量”的情況,此時(shí)必須確保記錄下來(lái)的數(shù)據(jù)盡量精確。因?yàn)槭占畔⒌挠邢抟馕吨?xì)微的錯(cuò)誤會(huì)被放大,甚至有可能影響整個(gè)結(jié)果的準(zhǔn)確性。擁有了大數(shù)據(jù),我們不再需要過(guò)于追究細(xì)節(jié),只要掌握大體的發(fā)展方向即可。比如計(jì)算小商品的營(yíng)業(yè)額和計(jì)算國(guó)民生產(chǎn)總值。不再執(zhí)著于尋找因果關(guān)系長(zhǎng)久以來(lái),我們的研究總是熱衷于追尋現(xiàn)象之間的因果關(guān)系。而在大數(shù)據(jù)時(shí)代,我們無(wú)須再緊盯事物之間的因果關(guān)系,應(yīng)該尋
6、找事物之間的相關(guān)關(guān)系。如果數(shù)百萬(wàn)條電子醫(yī)療記錄顯示橙汁和阿司匹林的特定組合可以治療癌癥,那么找出具體的藥理機(jī)制就沒(méi)有這種治療方法本身來(lái)得重要。2011年,美國(guó)個(gè)人消費(fèi)信用評(píng)估公司FICO提出了“遵從醫(yī)囑評(píng)分”——它分析一系列的變量來(lái)確定這個(gè)人是否會(huì)按時(shí)吃藥,包括一些看起來(lái)有點(diǎn)怪異的變量。比方說(shuō),一個(gè)人在某地居住了多久,這個(gè)人結(jié)婚了沒(méi)有,他多久換一個(gè)工作以及他是否有私家車。這個(gè)評(píng)分會(huì)幫助醫(yī)療機(jī)構(gòu)節(jié)省開(kāi)支,因?yàn)樗鼈儠?huì)知道哪些人需要得到它們的用藥提醒。有私家車和使用抗生素并沒(méi)有因果關(guān)系,這只是一種相關(guān)關(guān)系。大數(shù)據(jù)的應(yīng)用:谷歌流感預(yù)測(cè)谷歌流感預(yù)測(cè)(www.google.org/f
7、lutrends)早在2008年即已推出,原理是采用流感趨勢(shì)系統(tǒng)監(jiān)測(cè)全美的網(wǎng)絡(luò)搜索,尋找與流感相關(guān)的詞語(yǔ),比如“咳嗽”和“發(fā)燒”等,并利用這些搜索結(jié)果來(lái)提前9個(gè)星期預(yù)測(cè)可能與流感相關(guān)的就醫(yī)量,不像疾控中心一樣要在流感爆發(fā)一兩周之后才可以做到。2009年在H1N1爆發(fā)幾周前,谷歌公司的工程師們?cè)凇禢ature》上發(fā)表了一篇論文,介紹了GFT,成功預(yù)測(cè)了H1N1在全美范圍的傳播,甚至具體到特定的地區(qū)和州,而且判斷非常及時(shí),令公共衛(wèi)生官員們和計(jì)算機(jī)科學(xué)家們倍感震驚。大數(shù)據(jù)的應(yīng)用:PCORnetPCORnet由