資源描述:
《微博垂直領(lǐng)域的數(shù)據(jù)挖掘》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、.題目微博垂直領(lǐng)域的數(shù)據(jù)挖掘姓名葉浚源學(xué)號20091004054所在學(xué)院思科信息學(xué)院年級專業(yè)2009級計算機科學(xué)與技術(shù)指導(dǎo)教師蔣盛益職稱教授完成時間2013年4月20日-..綜合評定成績:指導(dǎo)教師評語(可另附A4紙):評定成績:指導(dǎo)教師簽名:日期:答辯小組意見(可另附A4紙):評定成績:答辯小組長簽名:日期:-..微博垂直領(lǐng)域的數(shù)據(jù)挖掘——以廣東外語外貿(mào)大學(xué)用戶群為研究對象葉浚源思科信息學(xué)院2009級計算機科學(xué)與技術(shù)摘要:近年來,微博已發(fā)展成為網(wǎng)上最熱門的應(yīng)用之一。到目前為止,國內(nèi)最熱門的新浪微博已擁有幾億注冊用戶。大量用戶的涌入使微博形成了各種垂直細分領(lǐng)域,譬
2、如某種職業(yè)的用戶,某個學(xué)校的學(xué)生等。為了更好地了解微博,除了對其進行整體的研究外,對特定垂直領(lǐng)域進行研究同樣具有現(xiàn)實意義與挑戰(zhàn)性。本文以新浪微博上廣東外語外貿(mào)大學(xué)相關(guān)用戶群為研究對象,通過定向數(shù)據(jù)采集,獲取相關(guān)用戶信息與關(guān)系鏈。計算用戶PeopleRank值,基于統(tǒng)計發(fā)現(xiàn)用戶群熱門標(biāo)簽以及使用Gephi進行網(wǎng)絡(luò)可視化,展示了該垂直領(lǐng)域內(nèi)用戶群的基本情況。關(guān)鍵詞:微博;垂直領(lǐng)域;數(shù)據(jù)采集;PeopleRank;網(wǎng)絡(luò)可視化-..DatamininginMicro-blogverticalspecificusersgroupbasedontheusersinGuang
3、dongUniversityofForeignStudiesYeJunYuanCiscoSchoolofInformaticsAbstract:Inrecentyears,micro-bloggraduallybecomesoneofthemostpopularonlineapplications.Nowadays,therearehundredsofmillionsusersgatheringinthemostpopularSinaMicro-blog.Withthegrowthofthenumberofusers,suchlikeagroupofstuden
4、tsinthesameschooloragroupofpeoplewithsameoccupation,kindsofspecificusersgroupsformed.Therefore,forabetterresearchinMicro-blog,topayattentionintheseverticalfieldsisalsosignificantandchallenging.Inthispaper,I’mfocusedonuserswhorelatedGuangdongUniversityofForeignStudiesinSinaMicro-blog.
5、Viadatacollection,Igetsomeusers’personalinformationandtheirfriendships.ThenIcalculatetheirPeopleRank,countforthegroup’shottagsanduseGephitovisualizethenetwork.Asaresult,itshowstheverticalspecificusersgroup’sbasicoverview.Keywords:Micro-blog;VerticalSpecificUsersGroup;Datacollection;P
6、eopleRank;Networkvisualization-..目錄摘要IABSTRACTII1緒論11.1微博概述11.2當(dāng)前國內(nèi)微博研究的現(xiàn)狀11.3本課題研究的目的及意義21.4本課題工作簡介22工作總體設(shè)計32.1系統(tǒng)設(shè)計框架圖32.2工作模塊簡介33定向微博數(shù)據(jù)采集53.1采集數(shù)據(jù)的類型53.2數(shù)據(jù)存儲63.3兩種采集方式113.4采集模塊的設(shè)計與實現(xiàn)183.5數(shù)據(jù)采集成果194數(shù)據(jù)預(yù)處理194.1垃圾信息的清理194.2廣東外語外貿(mào)大學(xué)相關(guān)用戶識別194.3垂直領(lǐng)域內(nèi)用戶網(wǎng)絡(luò)的構(gòu)建205垂直領(lǐng)域內(nèi)用戶重要度計算225.1PageRank簡介225.
7、2PageRank計算方法225.3借鑒PageRank的思想計算用戶PeopleRank225.4廣外相關(guān)用戶網(wǎng)絡(luò)PeopleRank計算236垂直網(wǎng)絡(luò)內(nèi)用戶熱門標(biāo)簽發(fā)現(xiàn)246.1用戶標(biāo)簽挖掘分析246.2基于統(tǒng)計發(fā)現(xiàn)廣外用戶群熱門標(biāo)簽247基于GEPHI的網(wǎng)絡(luò)可視化257.1Gephi簡介257.2數(shù)據(jù)導(dǎo)入267.3網(wǎng)絡(luò)分析277.4網(wǎng)絡(luò)可視化308挖掘結(jié)果展示338.1展示系統(tǒng)框架圖33-..8.2各模塊介紹339結(jié)語與展望369.1本文工作總結(jié)369.2本文工作的優(yōu)點、特色與不足379.3進一步工作展望38參考文獻38致謝39-..1緒論1.1微博概述微
8、博,即微型博客(Micr