資源描述:
《基于倒排索引微博話題檢測》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、國內(nèi)圖書分類號:TP391.3學(xué)校代碼:10213國際圖書分類號:621.3密級:公開工程碩士學(xué)位論文基于倒排索引的微博話題檢測碩士研究生:劉紅雨導(dǎo)師:陳清財教授申請學(xué)位:工程碩士學(xué)科:計算機技術(shù)所在單位:深圳研究生院答辯日期:2012年12月授予學(xué)位單位:哈爾濱工業(yè)大學(xué)IClassifiedIndex:TP391.3U.D.C:621.3DissertationfortheMasterDegreeofEngineeringINVERTEDINDEXBASEDMICRO-BLOGTOPICDETECTIONCandidate:HongyuLiuSupervisor:Prof.Qingcai
2、ChenAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:December,2012Degree-Conferring-Institution:HarbinInstituteofTechnologyII哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文摘要隨著微博這種新興的社交平臺迅速發(fā)展,越來越多的用戶使用,并且在上面發(fā)布事件信息,由于微博的傳播速度非常迅速,對新聞傳播的意義非常大,從微博數(shù)據(jù)中發(fā)現(xiàn)熱點事件有著極大的需求
3、。但是由于微博數(shù)據(jù)擁有規(guī)模大、噪聲多、文本較短等特點,給話題檢測與跟蹤帶來了巨大的挑戰(zhàn)。本文在別人研究關(guān)于話題檢測與跟蹤的基礎(chǔ)上,分析傳統(tǒng)的話題檢測與跟蹤算法的缺點,提出一個基于倒排索引的方法來提高算法的處理速度,但不降低算法的精度。通過對微博數(shù)據(jù)分析,人工建立一些規(guī)則對微博數(shù)據(jù)進行噪聲處理。然后對數(shù)據(jù)建立倒排索引,并進行話題檢測與跟蹤。對于每天獲取的新的事件,根據(jù)事件的熵值和用戶數(shù)量對事件進行排序,將列表前20的事件與之前的舊事件進行合并。在合并之前,利用基于衰老理論的方法來得到需要合并的舊事件集合。本文同時分析了AP聚類算法在微博數(shù)據(jù)集上的結(jié)果。為了驗證算法效率的提升,本文通過在不同級
4、別的數(shù)據(jù)集上對比傳統(tǒng)的SINGLE-PASS算法和基于倒排索引的改進算法的處理時間,通過實驗對比得知,基于倒排索引改進的算法能達到6-7倍的速度提升,性能遠遠高于傳統(tǒng)的文本聚類算法。由于實驗沒有標準的語料集合,本文通過人工標注的方式獲得了一個測試集合,測試集合包含26個事件,共計2817篇文檔。通過在測試集合上面的實驗分析,本文提出的算法能夠獲得較好的精度。本文還對比了不同的權(quán)重計算方式在微博數(shù)據(jù)上面的結(jié)果。同時還對比了AP聚類算法和SINGLE-PASS算法在微博數(shù)據(jù)集上的結(jié)果。由于微博數(shù)據(jù)量比較大,文本聚類算法會得出很多用戶不感興趣的事件,本文通過計算事件的熵值和參與事件的用戶數(shù)量對事
5、件進行排序。通過對比發(fā)現(xiàn),這種方法能夠?qū)⒂脩舾信d趣的話題排在事件列表前面。結(jié)合本文提出的算法,設(shè)計了一個微博話題檢測系統(tǒng),用于發(fā)現(xiàn)微博數(shù)據(jù)中產(chǎn)生的重大事件。關(guān)鍵詞:話題檢測與跟蹤;倒排索引;AP算法;動態(tài)窗口-I-哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文AbstractWiththerapiddevelopmentofmicro-blog,anemergingsocialnetwork,moreandmoreusersuseitandpostnews.Thereisagreatdemandindetectinghoteventsinmicro-blogdata,becauseofthefastpro
6、pagationofmicro-blogandgreatsignificanceofnewsspread.Howeverthereishugechallengeintopicdetectionandtrackingbecauseofthelarge-scale,muchnoiseandshortertextofmicro-blogdata.Afteranalysistheshortcomingsofthetraditionaltopicdetectionandtrackingalgorithm,thispaperproposedaninvertedindexbasedmethodtoinc
7、reasetheprocessingofthealgorithm,buthavenoharmtotheaccuracyofthealgorithm.Someartificialrulesareestablishedtoremovethenoiseafteranalysisthemicro-blogdata.Topicdetectionandtrackingalgorithmisprocessedafterinverted