資源描述:
《大數(shù)據(jù)分析報告》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、973計劃信息領(lǐng)域戰(zhàn)略調(diào)研材料之三大數(shù)據(jù)(BigData)科學(xué)問題研究李國杰1、前言1.1什么是大數(shù)據(jù)?大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合(維基百科定義)用傳統(tǒng)算法和數(shù)據(jù)庫系統(tǒng)可以處理的海量數(shù)據(jù)不算“大數(shù)據(jù)”。大數(shù)據(jù)=“海量數(shù)據(jù)”+“復(fù)雜類型的數(shù)據(jù)”大數(shù)據(jù)的特性包括4個“V”:Volume,Variety,Velocity,Value?數(shù)據(jù)量大:目前一般認(rèn)為PB級以上數(shù)據(jù)看成是大數(shù)據(jù);?種類多:包括文檔、視頻、圖片、音頻、數(shù)據(jù)庫數(shù)據(jù)等;?速度快:數(shù)據(jù)生產(chǎn)速度很快,要求數(shù)據(jù)處理和I/O
2、速度很快;?價值大:對國民經(jīng)濟(jì)和社會發(fā)展有重大影響。1.2目前大數(shù)據(jù)的規(guī)模工業(yè)革命以后,以文字為載體的信息量大約每十年翻一番;1970年以后,信息量大約每三年就翻一番;如今,全球信息總量每兩年就21可以翻一番。2011年全球被創(chuàng)建和被復(fù)制的數(shù)據(jù)總量為1.8ZB(10),其中75%來自于個人。IDC認(rèn)為,到下一個十年(2020年),全球所有IT部門擁有服務(wù)器的總量將會比現(xiàn)在多出10倍,所管理的數(shù)據(jù)將會比現(xiàn)在多出50倍。根據(jù)麥肯錫全球研究院(MGI)預(yù)測,到202021年,全球數(shù)據(jù)使用量預(yù)計將暴增44倍,達(dá)到35ZB(1ZB=10
3、Byte)。醫(yī)療衛(wèi)生、地理信息、電子商務(wù)、影視娛樂、科學(xué)研究等行業(yè),每天也都在創(chuàng)造著大量的數(shù)據(jù)。數(shù)據(jù)采集成本的下降推動了數(shù)據(jù)量的劇增,新的數(shù)據(jù)源和數(shù)據(jù)采集技術(shù)的出現(xiàn)大大增加了數(shù)據(jù)的類型,數(shù)據(jù)類型的增加導(dǎo)致數(shù)據(jù)空間維度增加,極大地增加了大數(shù)據(jù)的復(fù)雜度。1.3大數(shù)據(jù)公司的現(xiàn)狀:?Google公司通過大規(guī)模集群和MapReduce軟件,每個月處理的數(shù)據(jù)量超過400PB。?百度的數(shù)據(jù)量:數(shù)百PB,每天大約要處理幾十PB數(shù)據(jù),大多要實(shí)時處理,如微博、團(tuán)購、秒殺。?Facebook:注冊用戶超過8.5億,每月上傳10億照片,每天生成300
4、TB日志數(shù)據(jù)?淘寶網(wǎng):有3.7億會員,在線商品8.8億,每天交易數(shù)千萬,產(chǎn)生約20TB數(shù)據(jù)。?Yahoo!的數(shù)據(jù)量:Hadoop云計算平臺有34個集群,超過3萬臺機(jī)器,總存儲容量超過100PB。1.4網(wǎng)絡(luò)大數(shù)據(jù)的特點(diǎn)(1)多源異構(gòu):描述同一主題的數(shù)據(jù)由不同的用戶、不同的網(wǎng)站產(chǎn)生。網(wǎng)絡(luò)數(shù)據(jù)有多種不同的呈現(xiàn)形式,如音視頻、圖片、文本等,導(dǎo)致網(wǎng)絡(luò)數(shù)據(jù)格式上的異構(gòu)性。(2)交互性:不同于測量和傳感獲取的大規(guī)??茖W(xué)數(shù)據(jù),微博等社交網(wǎng)絡(luò)興起導(dǎo)至大量網(wǎng)絡(luò)數(shù)據(jù)具有很強(qiáng)的交互性。(3)時效性:在網(wǎng)絡(luò)平臺上,每時每刻都有大量新的網(wǎng)絡(luò)數(shù)據(jù)發(fā)布,網(wǎng)絡(luò)
5、信息內(nèi)容不斷變化,導(dǎo)致了信息傳播的時序相關(guān)性。(4)社會性:網(wǎng)絡(luò)上用戶根據(jù)自己的需要和喜好發(fā)布、回復(fù)或轉(zhuǎn)發(fā)信息,因而網(wǎng)絡(luò)數(shù)據(jù)成了對社會狀態(tài)的直接反映。(5)突發(fā)性:有些信息在傳播過程中會在短時間內(nèi)引起大量新的網(wǎng)絡(luò)數(shù)據(jù)與信息的產(chǎn)生,并使相關(guān)的網(wǎng)絡(luò)用戶形成網(wǎng)絡(luò)群體,體現(xiàn)出網(wǎng)絡(luò)大數(shù)據(jù)以及網(wǎng)絡(luò)群體的突發(fā)特性。(6)高噪聲:網(wǎng)絡(luò)數(shù)據(jù)來自于眾多不同的網(wǎng)絡(luò)用戶,具有很高的噪聲。2、國家重大戰(zhàn)略需求數(shù)據(jù)已成為與自然資源、人力資源一樣重要的戰(zhàn)略資源,隱含巨大的價值,已引起科技界和和企業(yè)界的高度重視。如果我們能夠有效地組織和使用大數(shù)據(jù),人們將得到
6、更多的機(jī)會發(fā)揮科學(xué)技術(shù)對社會發(fā)展的巨大推動作用,孕育著前所未有的機(jī)遇。O'Reilly公司斷言:“數(shù)據(jù)是下一個‘IntelInside’,未來屬于將數(shù)據(jù)轉(zhuǎn)換成產(chǎn)品的公司和人們?!边^去幾十年,我們一直大力發(fā)展信息科學(xué)技術(shù)和產(chǎn)業(yè),但主要的工作是電子化和數(shù)字化?,F(xiàn)在,數(shù)據(jù)為王的大數(shù)據(jù)時代已經(jīng)到來,戰(zhàn)略需求正在發(fā)生重大轉(zhuǎn)變:關(guān)注的重點(diǎn)落在數(shù)據(jù)(信息)上,計算機(jī)行業(yè)要轉(zhuǎn)變?yōu)檎嬲男畔⑿袠I(yè),從追求計算速度轉(zhuǎn)變?yōu)榇髷?shù)據(jù)處理能力,軟件也從編程為主轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心。實(shí)驗發(fā)現(xiàn)、理論預(yù)測和計算機(jī)模擬是目前廣泛采用三大科研范式。現(xiàn)在,數(shù)據(jù)密集型研究
7、已成為科研的第四范式。不論是基因組學(xué)、蛋白組學(xué)研究,天體物理研究還是腦科學(xué)研究都是以數(shù)據(jù)為中心的研3究。用電子顯微鏡重建大腦中所有的突觸網(wǎng)絡(luò),1mm大腦的圖像數(shù)據(jù)就超過1PB。取之不盡的實(shí)驗數(shù)據(jù)是科學(xué)新發(fā)現(xiàn)的源泉。大數(shù)據(jù)分析技術(shù)不僅是促進(jìn)基礎(chǔ)科學(xué)發(fā)展的強(qiáng)大杠桿,也是許多行業(yè)技術(shù)進(jìn)步和企業(yè)發(fā)展的推動力。大數(shù)據(jù)的真正意義并不在于大帶寬和大存儲,而在于對容量大且種類繁多的數(shù)據(jù)進(jìn)行分析并從中萃取大價值。采用大數(shù)據(jù)處理方法,生物制藥、新材料研制生產(chǎn)的流程會發(fā)生革命性的變化,可以通過數(shù)據(jù)處理能力極高的計算機(jī)并行處理,同時進(jìn)行大批量的仿真比
8、較和篩選,大大提高科研和生產(chǎn)效率。數(shù)據(jù)已成為礦物和化學(xué)元素一樣的原始材料,未來可能形成“數(shù)據(jù)探礦”、“數(shù)據(jù)化學(xué)”等新學(xué)科和新工藝模式。大數(shù)據(jù)處理的興起也將改變云計算的發(fā)展方向,云計算正在進(jìn)入以AaaS(分析即服務(wù))為主要標(biāo)志的Cloud2.0時代。現(xiàn)有的數(shù)據(jù)中心技術(shù)很難滿足大