資源描述:
《主題概率模型在微博主題挖掘方面的研究綜述》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在行業(yè)資料-天天文庫。
1、8主題概率模型在微博主題挖掘方面的研究綜述陳靜1*,劉琰1,王煦中2(1.解放軍信息工程大學網(wǎng)絡空間安全學院,河南省鄭州市450001)(*1923542221@qq.com)摘要:近年來,微博憑借著自身的特點發(fā)展成為社會公共輿論的重要平臺,對國家安全和社會發(fā)展產(chǎn)生了深遠的影響,由此對微博文本主題提取顯得格外重要。目前,文本主題挖掘的主流技術是主題概率模型。為此,首先對主題概率模型中LDA模型進行了詳細地介紹;其次分析了微博的數(shù)據(jù)特點,從三個方面:存在噪音詞匯、微博文本短小以及微博的時序性綜述了主題概率模型在微博主題挖掘方面的研究;近一步,又綜述了利用主題模型發(fā)現(xiàn)基于主題的
2、社團關系的研究;最后總結了未來主題模型在挖掘微博主題方面存在的挑戰(zhàn)。關鍵詞:微博;主題概率模型;主題;主題提?。簧鐖F發(fā)現(xiàn);中圖分類號:TP301 文獻標志碼:AResearchonApplicationofProbabilityTopicModelinMicroblogTopicMiningCHENJing1*,LIUYan1,WangXu-zhong1(1.CollegeofCyberspaceSafety,InformationEngineeringUniversityofthePeople’sLiberationArmy,Zhengzhou,450001,China
3、)Abstract:Inrecentyears,microbloghasbecomeanimportantplatformofsocialpublicopinionwithitsowncharacteristics,whichcaninfluencenationalsecurityandsocialdevelopment..Soitisveryimportanttoanalysisthetopicsofmicroblog.Currently,themaintechnologyoftopicminingintextisprobabilitytopicmodel.Firstly
4、,theLDAtopicmodelwasintroducedbriefly.Next,thepaperanalyzedthecharacteristicsofthemicroblogdataandsummarizedtheresearchworksonapplicationofprobabilitytopicmodelinmicroblogtopicminingfromthreeaspects:shorttext,noiseremovalandthetimingofmicroblogtext.Inaddition,theapplicationofprobabilitytop
5、icmodelinmicroblogcommunitydiscoverywasintroduced.Finally,someexistingchallengewerepointedout.Keywords:microblog;probabilitytopicmodel;topic;topicmining;communitydiscovery80引言近年來,隨著以微博、社交網(wǎng)站為代表的社會媒體的出現(xiàn)和迅速發(fā)展,使得人類能夠在互聯(lián)網(wǎng)上“貢獻”內(nèi)容或分享數(shù)據(jù)。而微博由于其平臺的開放性和內(nèi)容簡潔性等特征,正成為人類社會中社會關系維系和信息傳播的重要渠道和載體。同時由于微博內(nèi)容可以通
6、過各種通訊手段諸如手機等實時發(fā)布,容易在短時間內(nèi)產(chǎn)生大量數(shù)據(jù),通常這些數(shù)據(jù)雜亂無章,很難及時準確地獲取感興趣的信息。因此,微博主題提取的研究開始倍受關注。主題發(fā)現(xiàn)屬于自然語言處理領域的一個新的研究方向,它能夠將屬于同一個主題下分散的信息有效的匯集并組織起來,從而幫助用戶在大規(guī)模數(shù)據(jù)中快速準確地找到自己感興趣的信息。雖然傳統(tǒng)基于向量空間模型(VSM)的方法在主題提取方面得到了廣泛地應用,且效果不錯,但將其應用在大規(guī)模微博文本主題發(fā)現(xiàn)時仍然存在著不足。例如用特征詞表示微博文本時會出現(xiàn)維度過高、稀疏等問題,由于向量空間的維度規(guī)模直接影響計算的復雜度,所以這樣會導致復雜度過高。因此
7、,目前很多學者正嘗試著將主題概率模型應到微博主題挖掘中。本文第1節(jié)對主題概率模型的主要內(nèi)容進行歸納;第2節(jié)簡單分析了微博的數(shù)據(jù)特點,第3節(jié)基于微博數(shù)據(jù)的特點從三個方面:文本短小性、噪音消除、微博的時序性總結了主題概率模型的在微博主題提取方面的研究現(xiàn)狀,第4節(jié)總結了主題模型在微博基于主題的社團關系發(fā)現(xiàn)的拓展應用,最后指出了未來主題概率模型應到微博主題提取所面臨的挑戰(zhàn)。80主題概率模型簡介主題概率模型當中,主題表現(xiàn)為一系列相關單詞的條件概率分布。每篇文檔是由多個主題混合而成的,即文檔在所有主題上的概率分布,這樣文檔、詞