資源描述:
《大數(shù)據(jù)應用的現(xiàn)狀與展望》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、萬方數(shù)據(jù)計算機研究與發(fā)展IssN1000一1239/CN11—1777/TPJournalofComputerResearchandDevelopment50(Suppl.):216—233,2013大數(shù)據(jù)應用的現(xiàn)狀與展望張引陳敏廖小飛(華中科技大學計算機科學與技術(shù)學院武漢430074)(yinzhang.cs@gmail.com)BigDataApplications:ASurVeyZhang(S如∞ZYin,ChenMin,andLiaoXiaofeio,CD,”戶“f已rScie,zf#口,zd’I曹c^咒DZD93,,H。6口z^o
2、挖gLki口Prsi£yD,SfiP咒fen佗d了_f,l佗o£ogy,Ⅵ‰^口扎430074)AbstractCharacteristicsofbigdatacanbesummarizedasfourVs,i.e.volume(greatvolume),variety(variousmodalities),velocity(rapidgeneration),andvalue(hugevaluebutverylowdensity).Bigdataapplicationcanprovideusefulvalues,judgments,sugg
3、estions,supportsordecisions.Inthispaper,weintroducethemethods,architectureandtoolsforbigdataanalysis.Wethenexaminesixmostcorrelateddataanalysisfields,includingstructureddataanalysis,textanalysis,websiteanalysis,multimediaanalysis,networkanalysis,andmobileanalysis.Finally,w
4、esummarizetheresearchhotspotsandpossibleresearchdirectionsofbigdata.Wealsodiscusspotentialdevelopmenttrendsofbigdata.Keywor‘lsbigdata;dataanalysis;datamining;unstructureddata;internetofthings;socialnetworkdata;crowdsourcing摘要大數(shù)據(jù)具有規(guī)模大、種類多、生成速度快、價值巨大但密度低的特點.大數(shù)據(jù)應用就是利用數(shù)據(jù)分析的方法,
5、從大數(shù)據(jù)中挖掘有效信息,為用戶提供輔助決策,實現(xiàn)大數(shù)據(jù)價值的過程.主要介紹了大數(shù)據(jù)分析方法、分析模式以及常用的分析工具,將大數(shù)據(jù)應用歸納為6個關(guān)鍵領域——結(jié)構(gòu)化數(shù)據(jù)分析、文本分析、Web分析、多媒體分析、社交網(wǎng)絡分析和移動分析,并列舉了6個大數(shù)據(jù)的典型應用.最后,從基礎理論、關(guān)鍵技術(shù)、應用實踐以及數(shù)據(jù)安全4個方面總結(jié)了大數(shù)據(jù)的研究現(xiàn)狀,并對大數(shù)據(jù)應用未來的研究進行展望.關(guān)鍵詞大數(shù)據(jù);數(shù)據(jù)分析;數(shù)據(jù)挖掘;非結(jié)構(gòu)化數(shù)據(jù);物聯(lián)網(wǎng);社交網(wǎng)絡數(shù)據(jù);眾包中圖法分類號TP311在過去的20年中,各個領域都出現(xiàn)了大規(guī)模的數(shù)據(jù)增長,包括醫(yī)療保健和科學傳感器、
6、用戶生成數(shù)據(jù)、互聯(lián)網(wǎng)和金融公司、供應鏈系統(tǒng)等.國際數(shù)據(jù)公司(IDC)報告稱[1],2011年全球被創(chuàng)建和復制的數(shù)據(jù)總量為1.8ZB(1ZB≈1021B),在短短5年間增長了近9倍,而且預計這一數(shù)字將每兩年至少翻一番.大數(shù)據(jù)這一術(shù)語正是產(chǎn)生在全球數(shù)據(jù)爆炸增長的背收稿日期:201311—26基金項目:國家自然科學基金項目(61300224)景下,用來形容龐大的數(shù)據(jù)集合。與傳統(tǒng)的數(shù)據(jù)集合相比,大數(shù)據(jù)通常包含大量的非結(jié)構(gòu)化數(shù)據(jù),且大數(shù)據(jù)需要更多的實時分析.此外,大數(shù)據(jù)還為挖掘隱藏的價值帶來了新的機遇,同時給我們帶來了新的挑戰(zhàn),即如何有效地組織管理這
7、些數(shù)據(jù).如今,工業(yè)界、研究界甚至政府部門都對大數(shù)據(jù)這一研究領域產(chǎn)生了巨大的興趣.例如,我們經(jīng)常在公共媒體領域聽到萬方數(shù)據(jù)張引等:大數(shù)據(jù)應用的現(xiàn)狀與展望大數(shù)據(jù)這一話題,包括《經(jīng)濟學人》[z’3]、《紐約時報》[4]、《全國公共廣播電臺儼6
8、.《自然》和《科學》雜志也分別開放了特殊專欄,來討論大數(shù)據(jù)帶來的挑戰(zhàn)和重要性[7’8].政府機構(gòu)最近也宣布了一項加快大數(shù)據(jù)進程的重大計劃[9],各行各業(yè)也都在積極討論大數(shù)據(jù)的吸引力[1?.隨著網(wǎng)絡的快速發(fā)展,索引和查詢的內(nèi)容也在迅速增加,大數(shù)據(jù)給搜索公司帶來了巨大的挑戰(zhàn).谷歌創(chuàng)建了谷歌文件系統(tǒng)(GFS)[1
9、婦和MapReduce編程模型[i21來應對網(wǎng)絡規(guī)模的數(shù)據(jù)管理和分析所帶來的挑戰(zhàn).此外,用戶生成數(shù)據(jù)、各種傳感器和其他的數(shù)據(jù)源也助長了這種勢不可擋的數(shù)據(jù)流,這就需要對計算架構(gòu)和大