資源描述:
《什么是數(shù)據(jù)科學》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、什么是數(shù)據(jù)科學?(1)PostedOn星期二,18一2011Byadmin.Under?Knowledge??Tags:?DataScience,Google,Translation??原文鏈接:http://radar.oreilly.com/2010/06/what-is-data-science.html我們都聽說過:根據(jù)HalVarian的說法,統(tǒng)計學就是下一代給力的工作(statisticsisthenextsexyjob)。5年前,在什么是Web2.0(WhatisWeb2.0)的討論中,TimO’Reilly說“數(shù)據(jù)就是下一個intelinside”。但這到底什么
2、意思?為什么我們突然酒開始關(guān)注統(tǒng)計學和數(shù)據(jù)了?文中,我會提到數(shù)據(jù)科學的方方面面——技術(shù),公司,以及獨一無二的技能集。什么是數(shù)據(jù)科學?網(wǎng)絡(luò)上充滿各種“數(shù)據(jù)驅(qū)動類應用(data-drivenapps)”。幾乎任何電子商務(wù)應用都是數(shù)據(jù)驅(qū)動類的應用程序。在web界面的后面是個數(shù)據(jù)庫,二者之間有與數(shù)據(jù)和數(shù)據(jù)服務(wù)(如信用卡處理公司、銀行等)交互的中間件。但只是“用數(shù)據(jù)”并不能被稱作“數(shù)據(jù)科學”。一個數(shù)據(jù)應用程序從數(shù)據(jù)本身獲得數(shù)值,并創(chuàng)造出更多的數(shù)據(jù)作為結(jié)果。這并不僅僅是用數(shù)據(jù)的應用程序,它是一個數(shù)據(jù)產(chǎn)品。而數(shù)據(jù)科學就是使得創(chuàng)建數(shù)據(jù)產(chǎn)品變成可能的學科。網(wǎng)絡(luò)中早期的數(shù)據(jù)產(chǎn)品是CDDBdatab
3、ase(譯者注:CompactDiscDatabase,一種支持通過網(wǎng)絡(luò)訪問音頻信息的數(shù)據(jù)庫)。CDDB的開發(fā)者認識到任何CD都有一個唯一的簽名,(舉例來說)這基于每個音軌的長度。Gracenote(譯者注:CDDB的開發(fā)公司)建立了一個關(guān)于音軌長度的數(shù)據(jù)庫,并將它與專輯元數(shù)據(jù)信息(音軌名,表演者,專輯名等)數(shù)據(jù)庫結(jié)合。如果你用過iTunes燒錄CD,你就應用到這個數(shù)據(jù)庫了。在做任何其他事情之前,iTunes讀取每個音軌的長度,發(fā)送給CDDB,并獲得音軌的標題信息,如果你有個CD不在數(shù)據(jù)庫中(包括你自制的CD),你可以為這個未知專輯創(chuàng)建新條目。盡管這聽起來很簡單,但它是革命性的
4、:CDDB把音樂視為數(shù)據(jù),而非音頻文件,并通過創(chuàng)建數(shù)值來做到這一點。他們的業(yè)務(wù)與販賣音樂、共享音樂或分析音樂的品味(盡管這些也是“數(shù)據(jù)產(chǎn)品”)有著本質(zhì)不同。CDDB將音樂問題完全視為數(shù)據(jù)問題。Google是創(chuàng)建數(shù)據(jù)產(chǎn)品的專家。有一些例子:·Google的突破在于意識到搜索引擎可以不僅僅是通過頁面輸入文字(來進行搜索)。Google的PageRank算法會首先使用頁面本身以外的數(shù)據(jù),特別是指向頁面的連接數(shù)量。追蹤連接使得Google搜索更加有用,而PageRank已經(jīng)是公司成功的關(guān)鍵部分。·拼寫檢查并不是非常困難的問題,但通過糾錯建議來糾正那些誤寫的搜索,并觀察用戶對相應的點擊,
5、Google使之更為精確。他們已經(jīng)構(gòu)造了一個字典,包含了通用拼寫錯誤,它們的正確拼寫,以及發(fā)生的上下文?!ふZ言識別一直是個難題,現(xiàn)在依然如此。但Google通過使用他們搜集的音頻數(shù)據(jù),已取得重大進展,如今他們已經(jīng)將語音搜索(voicesearch)整合到核心搜索引擎中了?!ぴ?009年的豬流感疫情中,Google能夠通過跟蹤針對流感相關(guān)主題的搜索(byfollowingsearchesforflu-relatedtopics),來追蹤疫情進展。FlutrendsGoogle可以通過分析不同區(qū)域人們的搜索,比疾病控制中心提前兩周繪制出豬流感疫情大概的趨向。Google并不是唯一一
6、個知道如何應用數(shù)據(jù)的。Facebook和LinkedIn使用好友關(guān)系規(guī)律來提示你那些你可能認識的人,有時候精確的難以置信。Amazon干脆省省去你的搜索,將你搜的和其他用戶搜的相結(jié)合,來做出令人驚訝的合適推薦。這些推薦就是“數(shù)據(jù)產(chǎn)品”,推動了Amazon的傳統(tǒng)零售業(yè)務(wù)。這一切都源于Amazon明白書不僅是書,客戶不僅是客戶;客戶會留下數(shù)據(jù)線索,通過對其挖掘并付諸使用——把照相機當作能與客戶行為(每次用戶訪問網(wǎng)站都會留下的數(shù)據(jù))相關(guān)聯(lián)的數(shù)據(jù)。將所有這些應用綁在一起的是從用戶提供的數(shù)值中搜集來的數(shù)據(jù)。無論這種數(shù)據(jù)是被搜索的術(shù)語,音頻樣本,還是對某產(chǎn)品的一次查閱,用戶一直在為他們所使
7、用的產(chǎn)品貢獻著數(shù)據(jù),而他們也會在這種循環(huán)中獲益。這就是數(shù)據(jù)科學的起點。在過去幾年,可用數(shù)據(jù)爆發(fā)式增長。無論是我們說的網(wǎng)絡(luò)服務(wù)器日志,tweet流,在線交易記錄,還是來自政府的“公民科學”數(shù)據(jù),抑或其他數(shù)據(jù)源的數(shù)據(jù),問題的關(guān)鍵不是找到數(shù)據(jù),而是如何用數(shù)據(jù)。而且,公司不僅僅用到他們自己的數(shù)據(jù),還有用戶貢獻的數(shù)據(jù)。從好多源頭中混搭數(shù)據(jù)已經(jīng)越來越稀松平常?!癉ataMashupsinR”分析了費城的喪失抵押品贖回權(quán)(mortgageforeclosures)的情況:通過警長辦公室發(fā)布的一份報告,抽取