微博垂直領(lǐng)域的數(shù)據(jù)挖掘

微博垂直領(lǐng)域的數(shù)據(jù)挖掘

ID:28343699

大?。?.31 MB

頁數(shù):47頁

時間:2018-12-09

微博垂直領(lǐng)域的數(shù)據(jù)挖掘_第1頁
微博垂直領(lǐng)域的數(shù)據(jù)挖掘_第2頁
微博垂直領(lǐng)域的數(shù)據(jù)挖掘_第3頁
微博垂直領(lǐng)域的數(shù)據(jù)挖掘_第4頁
微博垂直領(lǐng)域的數(shù)據(jù)挖掘_第5頁
資源描述:

《微博垂直領(lǐng)域的數(shù)據(jù)挖掘》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、.題目微博垂直領(lǐng)域的數(shù)據(jù)挖掘姓名葉浚源學(xué)號20091004054所在學(xué)院思科信息學(xué)院年級專業(yè)2009級計算機科學(xué)與技術(shù)指導(dǎo)教師蔣盛益職稱教授完成時間2013年4月20日-..綜合評定成績:指導(dǎo)教師評語(可另附A4紙):評定成績:指導(dǎo)教師簽名:日期:答辯小組意見(可另附A4紙):評定成績:答辯小組長簽名:日期:-..微博垂直領(lǐng)域的數(shù)據(jù)挖掘——以廣東外語外貿(mào)大學(xué)用戶群為研究對象葉浚源思科信息學(xué)院2009級計算機科學(xué)與技術(shù)摘要:近年來,微博已發(fā)展成為網(wǎng)上最熱門的應(yīng)用之一。到目前為止,國內(nèi)最熱門的新浪微博已擁有幾億注冊用戶。大量用戶的涌入使微博形成了各種垂直細分領(lǐng)域,譬

2、如某種職業(yè)的用戶,某個學(xué)校的學(xué)生等。為了更好地了解微博,除了對其進行整體的研究外,對特定垂直領(lǐng)域進行研究同樣具有現(xiàn)實意義與挑戰(zhàn)性。本文以新浪微博上廣東外語外貿(mào)大學(xué)相關(guān)用戶群為研究對象,通過定向數(shù)據(jù)采集,獲取相關(guān)用戶信息與關(guān)系鏈。計算用戶PeopleRank值,基于統(tǒng)計發(fā)現(xiàn)用戶群熱門標(biāo)簽以及使用Gephi進行網(wǎng)絡(luò)可視化,展示了該垂直領(lǐng)域內(nèi)用戶群的基本情況。關(guān)鍵詞:微博;垂直領(lǐng)域;數(shù)據(jù)采集;PeopleRank;網(wǎng)絡(luò)可視化-..DatamininginMicro-blogverticalspecificusersgroupbasedontheusersinGuang

3、dongUniversityofForeignStudiesYeJunYuanCiscoSchoolofInformaticsAbstract:Inrecentyears,micro-bloggraduallybecomesoneofthemostpopularonlineapplications.Nowadays,therearehundredsofmillionsusersgatheringinthemostpopularSinaMicro-blog.Withthegrowthofthenumberofusers,suchlikeagroupofstuden

4、tsinthesameschooloragroupofpeoplewithsameoccupation,kindsofspecificusersgroupsformed.Therefore,forabetterresearchinMicro-blog,topayattentionintheseverticalfieldsisalsosignificantandchallenging.Inthispaper,I’mfocusedonuserswhorelatedGuangdongUniversityofForeignStudiesinSinaMicro-blog.

5、Viadatacollection,Igetsomeusers’personalinformationandtheirfriendships.ThenIcalculatetheirPeopleRank,countforthegroup’shottagsanduseGephitovisualizethenetwork.Asaresult,itshowstheverticalspecificusersgroup’sbasicoverview.Keywords:Micro-blog;VerticalSpecificUsersGroup;Datacollection;P

6、eopleRank;Networkvisualization-..目錄摘要IABSTRACTII1緒論11.1微博概述11.2當(dāng)前國內(nèi)微博研究的現(xiàn)狀11.3本課題研究的目的及意義21.4本課題工作簡介22工作總體設(shè)計32.1系統(tǒng)設(shè)計框架圖32.2工作模塊簡介33定向微博數(shù)據(jù)采集53.1采集數(shù)據(jù)的類型53.2數(shù)據(jù)存儲63.3兩種采集方式113.4采集模塊的設(shè)計與實現(xiàn)183.5數(shù)據(jù)采集成果194數(shù)據(jù)預(yù)處理194.1垃圾信息的清理194.2廣東外語外貿(mào)大學(xué)相關(guān)用戶識別194.3垂直領(lǐng)域內(nèi)用戶網(wǎng)絡(luò)的構(gòu)建205垂直領(lǐng)域內(nèi)用戶重要度計算225.1PageRank簡介225.

7、2PageRank計算方法225.3借鑒PageRank的思想計算用戶PeopleRank225.4廣外相關(guān)用戶網(wǎng)絡(luò)PeopleRank計算236垂直網(wǎng)絡(luò)內(nèi)用戶熱門標(biāo)簽發(fā)現(xiàn)246.1用戶標(biāo)簽挖掘分析246.2基于統(tǒng)計發(fā)現(xiàn)廣外用戶群熱門標(biāo)簽247基于GEPHI的網(wǎng)絡(luò)可視化257.1Gephi簡介257.2數(shù)據(jù)導(dǎo)入267.3網(wǎng)絡(luò)分析277.4網(wǎng)絡(luò)可視化308挖掘結(jié)果展示338.1展示系統(tǒng)框架圖33-..8.2各模塊介紹339結(jié)語與展望369.1本文工作總結(jié)369.2本文工作的優(yōu)點、特色與不足379.3進一步工作展望38參考文獻38致謝39-..1緒論1.1微博概述微

8、博,即微型博客(Micr

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。