基于倒排索引微博話題檢測

基于倒排索引微博話題檢測

ID:33935566

大小:967.15 KB

頁數(shù):58頁

時間:2019-03-01

基于倒排索引微博話題檢測_第1頁
基于倒排索引微博話題檢測_第2頁
基于倒排索引微博話題檢測_第3頁
基于倒排索引微博話題檢測_第4頁
基于倒排索引微博話題檢測_第5頁
資源描述:

《基于倒排索引微博話題檢測》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫

1、國內(nèi)圖書分類號:TP391.3學(xué)校代碼:10213國際圖書分類號:621.3密級:公開工程碩士學(xué)位論文基于倒排索引的微博話題檢測碩士研究生:劉紅雨導(dǎo)師:陳清財教授申請學(xué)位:工程碩士學(xué)科:計算機技術(shù)所在單位:深圳研究生院答辯日期:2012年12月授予學(xué)位單位:哈爾濱工業(yè)大學(xué)IClassifiedIndex:TP391.3U.D.C:621.3DissertationfortheMasterDegreeofEngineeringINVERTEDINDEXBASEDMICRO-BLOGTOPICDETECTIONCandidate:HongyuLiuSupervisor:Prof.Qingcai

2、ChenAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:December,2012Degree-Conferring-Institution:HarbinInstituteofTechnologyII哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文摘要隨著微博這種新興的社交平臺迅速發(fā)展,越來越多的用戶使用,并且在上面發(fā)布事件信息,由于微博的傳播速度非常迅速,對新聞傳播的意義非常大,從微博數(shù)據(jù)中發(fā)現(xiàn)熱點事件有著極大的需求

3、。但是由于微博數(shù)據(jù)擁有規(guī)模大、噪聲多、文本較短等特點,給話題檢測與跟蹤帶來了巨大的挑戰(zhàn)。本文在別人研究關(guān)于話題檢測與跟蹤的基礎(chǔ)上,分析傳統(tǒng)的話題檢測與跟蹤算法的缺點,提出一個基于倒排索引的方法來提高算法的處理速度,但不降低算法的精度。通過對微博數(shù)據(jù)分析,人工建立一些規(guī)則對微博數(shù)據(jù)進行噪聲處理。然后對數(shù)據(jù)建立倒排索引,并進行話題檢測與跟蹤。對于每天獲取的新的事件,根據(jù)事件的熵值和用戶數(shù)量對事件進行排序,將列表前20的事件與之前的舊事件進行合并。在合并之前,利用基于衰老理論的方法來得到需要合并的舊事件集合。本文同時分析了AP聚類算法在微博數(shù)據(jù)集上的結(jié)果。為了驗證算法效率的提升,本文通過在不同級

4、別的數(shù)據(jù)集上對比傳統(tǒng)的SINGLE-PASS算法和基于倒排索引的改進算法的處理時間,通過實驗對比得知,基于倒排索引改進的算法能達到6-7倍的速度提升,性能遠遠高于傳統(tǒng)的文本聚類算法。由于實驗沒有標準的語料集合,本文通過人工標注的方式獲得了一個測試集合,測試集合包含26個事件,共計2817篇文檔。通過在測試集合上面的實驗分析,本文提出的算法能夠獲得較好的精度。本文還對比了不同的權(quán)重計算方式在微博數(shù)據(jù)上面的結(jié)果。同時還對比了AP聚類算法和SINGLE-PASS算法在微博數(shù)據(jù)集上的結(jié)果。由于微博數(shù)據(jù)量比較大,文本聚類算法會得出很多用戶不感興趣的事件,本文通過計算事件的熵值和參與事件的用戶數(shù)量對事

5、件進行排序。通過對比發(fā)現(xiàn),這種方法能夠?qū)⒂脩舾信d趣的話題排在事件列表前面。結(jié)合本文提出的算法,設(shè)計了一個微博話題檢測系統(tǒng),用于發(fā)現(xiàn)微博數(shù)據(jù)中產(chǎn)生的重大事件。關(guān)鍵詞:話題檢測與跟蹤;倒排索引;AP算法;動態(tài)窗口-I-哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文AbstractWiththerapiddevelopmentofmicro-blog,anemergingsocialnetwork,moreandmoreusersuseitandpostnews.Thereisagreatdemandindetectinghoteventsinmicro-blogdata,becauseofthefastpro

6、pagationofmicro-blogandgreatsignificanceofnewsspread.Howeverthereishugechallengeintopicdetectionandtrackingbecauseofthelarge-scale,muchnoiseandshortertextofmicro-blogdata.Afteranalysistheshortcomingsofthetraditionaltopicdetectionandtrackingalgorithm,thispaperproposedaninvertedindexbasedmethodtoinc

7、reasetheprocessingofthealgorithm,buthavenoharmtotheaccuracyofthealgorithm.Someartificialrulesareestablishedtoremovethenoiseafteranalysisthemicro-blogdata.Topicdetectionandtrackingalgorithmisprocessedafterinverted

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。