基于spark的輿情分析架構研究

基于spark的輿情分析架構研究

ID:35058692

大?。?.57 MB

頁數:67頁

時間:2019-03-17

基于spark的輿情分析架構研究_第1頁
基于spark的輿情分析架構研究_第2頁
基于spark的輿情分析架構研究_第3頁
基于spark的輿情分析架構研究_第4頁
基于spark的輿情分析架構研究_第5頁
資源描述:

《基于spark的輿情分析架構研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。

1、學校代號:U8分類號:45UDC::21:密級學號11305057廣東工業(yè)大學碩±學位論文(工程碩±)基于Spark的輿情分析架構研究譚造樂、校內導師姓名職稱:郝志峰教授校外導師姓名、職稱:盧宇高級工程師學科:計算機巧術(專業(yè))或領域名稱學生所屬學院:計算機學院二〇—論文答辯日期:六年五月ADissertationSubmited化GuangdongUniversityofTechnologyfortheDegreeofMa

2、sterMasterofEnineerin(gg)ResearchonSparkBasedPublicOpinionAnalysisArchitectu巧Candidate:TanZaoleSuervisor:Prof.HaoZhifenpgMay2016SchoolofComputerScienceandTechnologyGuangdongUnive巧巧yofTechnologyGuanzhouGuandonP.R.

3、China510006g,,,gg摘要摘要輿情分析通過對互聯(lián)網海量信息進行自動抓取、自動分類聚類等技術,形成簡報、,圖表等分析結果為客戶全面掌捏群眾思想動態(tài),做出正確輿論引導提供分析依據。、隨著移動互聯(lián)網,互聯(lián)網用戶呈、電子商務社交網絡等甘聯(lián)網新興巧術普及和應用現爆炸性增長。因此,高效海量數據處理架構對輿情分析具有重要研巧意義。本文結合新浪微博,基于大數據處理技術,探討了構建基于Spark的輿情分析架構的可行性:1、,。論文主要做了W下幾方面工作設計整體架構搭建

4、Hadoop分布式平臺對海量數據進行存儲和處理,通過分布式列式數據庫HBase和Lucene相結合,在滿足海量數據存儲的基礎上,提高了數據檢索和讀寫性能。2、在數據采集模塊,針對一當今廣泛使用的模擬登陸和基于AP,I采集方案的缺陷設計個高效穩(wěn)定的數據采集方案,具體包括通過內存數據庫Redis來控制待爬隊列、更新隊列和己爬集合,在避免重復采集的同時能及時對數據進行更新,,;針對巧限制問題提出流動性的代理池機制通過池中代理不斷調度更新,使得池中代理能針對不同網頁而發(fā)揮其最大功效,同時

5、保證數據抓取的高效性和穩(wěn)定性,提高采集效率3、adoo。為從本質上突破Hp在文本-聚類上的瓶頸,本文在文本聚類模塊中使用基于卻ark的改進Kmeans算法實現。具體包括在預處理階段,針對微博持征項比較少的缺點,使用word2vec工具對特征項進-means算法行擴展K值選擇和簇必初始化問題上優(yōu)化K,Sark;在并將p框架應用于-優(yōu)化的Kmeans算法,對文本數據進巧并行處理使得架構在文本聚類上更加離效快捷,,從而提高整個架構的性能一。4、針對架構提出種基于資源信息増益的瓶頸檢測方

6、法。該方法通過監(jiān)控集群的響應滿意度(ResonseSatisfactionRS,p,)來發(fā)現瓶頸的出現然后通過資源使用率和響應滿意度樣本計算各類資源的信息增益,W確定具體的瓶頸資源。一輿情分析作為愈發(fā)強大的社會建設力量,網絡輿情己經成為股不容忽視的社會力量。故對網絡輿情的分析對社會發(fā)展具有重要意義其在應用和研究上都有著巨大的前景,故對輿情分析架構研究勢在必行,。實驗結果表明本文構建的輿情分析架構能很好的適應對海量數據的輿情分析,能達到較為理想的數據采集和數據處理效果,對處

7、理大規(guī)模數據的輿情分析具有可行性。:輿情分析ark關鍵字;數據采集;Sp;文本聚類;瓶頸檢測IAbracsttAbstractPublicoinionanalsiseneratesbriefreortschartsandotheranalsisresultsthrouhpygp,ygautomaticallycapturingclassificationandclusterinthemassiveinformationintheInterne

8、t.,gTheanalysisresultsrovideanalticalsuorttodecisionmakerswhocanhavecomletepyppp,ucontrolofthepeoplesideologicaltrends,andmakethecorrectidanceofublicoinions.gppoandabdIt-Withtheularitlica

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。