資源描述:
《大數(shù)據(jù)應(yīng)用案例分析》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、大數(shù)據(jù)應(yīng)用案例分析目錄大數(shù)據(jù)概念1大數(shù)據(jù)處理辦法2大數(shù)據(jù)應(yīng)用案例31大數(shù)據(jù)概念大數(shù)據(jù)時(shí)代到來隨著智能手機(jī)的普及,網(wǎng)民參與互聯(lián)網(wǎng)產(chǎn)品和使用各種手機(jī)應(yīng)用的程度越來越深,用戶的行為、位置、甚至身體生理等每一點(diǎn)變化都成為了可被記錄和分析的數(shù)據(jù),數(shù)據(jù)量呈現(xiàn)爆炸式增長。地球上至今總共的數(shù)據(jù)量:在2006年,個(gè)人用戶才剛剛邁進(jìn)TB時(shí)代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);據(jù)IDC研究機(jī)構(gòu)預(yù)測(cè):到2020年,整個(gè)世界的數(shù)據(jù)總量將會(huì)增長44倍,達(dá)到35.2ZB(1ZB=10億TB)!1PB=2^50字節(jié)1EB=2^60字節(jié)1ZB=2^70字節(jié)GB在2011年,這個(gè)數(shù)字達(dá)到了1.8ZB。TBPBEBZB
2、01大數(shù)據(jù)的構(gòu)成大數(shù)據(jù)=海量數(shù)據(jù)(交易數(shù)據(jù)、交互數(shù)據(jù))+針對(duì)海量數(shù)據(jù)處理的解決方案海量交易數(shù)據(jù):企業(yè)內(nèi)部的經(jīng)營交易信息主要包括聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù),是結(jié)構(gòu)化的、通過關(guān)系數(shù)據(jù)庫進(jìn)行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。海量交互數(shù)據(jù):源于Facebook、Twitter、微博、及其他來源的社交媒體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細(xì)記錄CDR、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸ManageFileTransfer協(xié)議傳送的海量圖像文件、Web文本和點(diǎn)擊流數(shù)據(jù)、科學(xué)信息、電子郵件等等??梢愿嬖V我們未來會(huì)發(fā)生什么。海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)
3、已經(jīng)催生出了設(shè)計(jì)用于數(shù)據(jù)密集型處理的架構(gòu)。例如具有開放源碼、在商品硬件群中運(yùn)行的ApacheHadoop。注:大數(shù)據(jù)不僅僅指的是數(shù)據(jù)量龐大,更為重要的是數(shù)據(jù)類型復(fù)雜想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的特征。02大數(shù)據(jù)4V特征03結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)如今的數(shù)據(jù)類型早已不是單一的文本形式,網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,對(duì)數(shù)據(jù)的處理能力提出了更高要求實(shí)時(shí)獲取需要的信息比如:在客戶每次瀏覽頁面,每次下訂單過程中都會(huì)對(duì)用戶進(jìn)行實(shí)時(shí)的推薦,決策已經(jīng)變得實(shí)時(shí)數(shù)據(jù)量巨大全球在2010年正式進(jìn)入ZB時(shí)代,IDC預(yù)計(jì)到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量沙里淘金
4、,價(jià)值密度低雖然數(shù)據(jù)量很大,但是價(jià)值密度較低,如何通過強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)價(jià)值“提純”,是目前大數(shù)據(jù)亟待解決的難題大數(shù)據(jù)產(chǎn)品市場(chǎng)價(jià)值解決方案轉(zhuǎn)化1.海量(Volume)3.速度(Velocity)4.價(jià)值(value)2.多樣(Variety)2大數(shù)據(jù)處理辦法用戶畫像體系01每個(gè)企業(yè)都不可以避免的要對(duì)用戶進(jìn)行畫像,用戶畫像的提出,根本上是源于企業(yè)對(duì)用戶認(rèn)知的需求。產(chǎn)品經(jīng)理,需要了解用戶的特征,對(duì)產(chǎn)品進(jìn)行功能的完善。內(nèi)容運(yùn)營人員,需要篩選目標(biāo)用戶,對(duì)內(nèi)容進(jìn)行精準(zhǔn)投放?;钴S程度如何?年齡分布、區(qū)域分布是什么樣的?消費(fèi)習(xí)慣和特征是什么?公司在哪?對(duì)什么感興趣?常去的商圈是哪兒?贏
5、利點(diǎn)在哪?職業(yè)是什么?常住地在哪兒?購買能力如何?基本特征?用戶畫像體系02駕駛行為數(shù)據(jù)將構(gòu)建精準(zhǔn)的車險(xiǎn)用戶畫像性別年齡國籍地理位置開車地點(diǎn)職業(yè)駕照類別開車頻率開車原因健庩?duì)顩r醫(yī)療條件感知力學(xué)習(xí)周期消費(fèi)習(xí)慣民族特征教育水平婚姻狀態(tài)共用車輛情況生活方式使用藥物情況酒駕經(jīng)歷疲勞駕駛收入情況碰撞事故車輛維修犯罪記錄違章駕駛記錄駕駛時(shí)間通過對(duì)用戶不同維度的大數(shù)據(jù)分析,最終得出可執(zhí)行的業(yè)務(wù)決策?;緦傩孕袨榱?xí)慣購買能力心理特征社交網(wǎng)絡(luò)興趌愛好基于機(jī)器學(xué)習(xí)的數(shù)據(jù)挖掘及分類基本識(shí)別流程03訓(xùn)練樣本數(shù)據(jù)源分詞特征選擇特征權(quán)重計(jì)算模型訓(xùn)練是模型評(píng)估是否通過待預(yù)測(cè)類別文本庫文本打上類別標(biāo)簽否訓(xùn)練及測(cè)試過
6、程預(yù)測(cè)過程訓(xùn)練生成的模型訓(xùn)練生成的模型待預(yù)測(cè)類別文本原始庫數(shù)據(jù)預(yù)處理訓(xùn)練樣本庫數(shù)據(jù)預(yù)處理a.去除營銷博文干擾b.去除提及人的干擾(@)c.去除如門戶的作者的干擾大數(shù)據(jù)的處理04數(shù)據(jù)去重空值處理數(shù)據(jù)去噪格式統(tǒng)一對(duì)齊融合融合信息數(shù)據(jù)庫融合信息數(shù)據(jù)庫里程數(shù)據(jù)工況數(shù)據(jù)充電數(shù)據(jù)行駛軌跡車輛信息將空值更改為對(duì)應(yīng)的默認(rèn)值使用UGC算法去除無用數(shù)據(jù)使用基于密度的聚類去除異常數(shù)據(jù)將多源異構(gòu)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一數(shù)據(jù)表達(dá)形式去除異常的數(shù)據(jù)項(xiàng)匯聚多源異構(gòu)數(shù)據(jù)中的一致部分?jǐn)?shù)據(jù)挖掘分類的過程3大數(shù)據(jù)應(yīng)用案例大數(shù)據(jù)是做好音樂平臺(tái)的一把利器01爽歪的麻雀,在電線桿上裸睡削個(gè)椰子皮,你卻TM給個(gè)梨撒米拉帶帶,哇嘎哇嘎哎喲想
7、聽的歌記不起名字???呀馬大叔與小舅舅四斤大豆,三根皮帶艾薇,莎啦啦,艾瑞噢喔噢喔,手剎多情咱切抱劉繼芬鋼鐵鍋,含眼淚喊修瓢鍋啊瑞寧瑞寧瑞寧瑞寧瑞寧產(chǎn)品競爭04*聽歌進(jìn)入社交化時(shí)代,聽歌單、聽歌看評(píng)論成為流行聽歌行為;*個(gè)性化推薦已覆蓋多數(shù)聽歌用戶,越來越多用戶通過個(gè)性化推薦發(fā)現(xiàn)好音樂;*聽歌進(jìn)入多元化時(shí)代,民謠、電音、二次元音樂崛起;*獨(dú)立音樂人迅速崛起,社交互動(dòng)助推音樂人漲粉;*90后已成為音樂消費(fèi)主力人群;*用戶付費(fèi)意識(shí)明顯提高,付費(fèi)會(huì)員數(shù)和數(shù)字專輯