基于lda模型的文本分類與觀點挖掘

基于lda模型的文本分類與觀點挖掘

ID:23938163

大?。?4.50 KB

頁數(shù):4頁

時間:2018-11-11

基于lda模型的文本分類與觀點挖掘_第1頁
基于lda模型的文本分類與觀點挖掘_第2頁
基于lda模型的文本分類與觀點挖掘_第3頁
基于lda模型的文本分類與觀點挖掘_第4頁
資源描述:

《基于lda模型的文本分類與觀點挖掘》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫

1、基于LDA模型的文本分類與觀點挖掘  摘要得益于信息技術(shù)的飛速發(fā)展,信息的傳遞效率不斷提高,網(wǎng)絡(luò)信息數(shù)量也呈現(xiàn)爆炸性增長趨勢,這些信息大多文本的方式存在并且各種類別混雜在一起。使用人工方式對于分類并提取其中有用的觀點信息效率低下并且浪費大量的人力資源,因此通過自動分析和提取的方式發(fā)展觀點挖掘的新方法有著一定的研究意義,LDA主題模型作為無監(jiān)督機器學(xué)習(xí)模型的典型應(yīng)用有著快速、高效的特點而被眾多學(xué)者廣泛研究?!  娟P(guān)鍵詞】LDA模型機器學(xué)習(xí)觀點信息  1引言  第38次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,截至2016年6月,中國網(wǎng)民規(guī)模達7.10億,互聯(lián)網(wǎng)普及率達到51.7%。

2、互聯(lián)網(wǎng)已經(jīng)成為現(xiàn)代人生活中的必需品,借助互聯(lián)網(wǎng)的快速發(fā)展,信息的傳遞方式與效率日新月異。觀點挖掘是指通過相關(guān)技術(shù)分析文本中表達的觀點與情感極性,幫助用戶快速地獲取有用信息。當(dāng)前國內(nèi)外學(xué)者針對觀點挖掘進行的相關(guān)研究工作聚集在以下兩個方面: ?。?)文本分類; ?。?)觀點抽取。  文本分類的主要任務(wù)是判定文本描述事物特征所屬類別,觀點抽取則是提取文本特征下對應(yīng)的具體觀點信息,其中根據(jù)情感的褒貶性又可以分為以下三類,正向表示情感傾向為褒義,負向表示情感傾向為貶義,而中性則表示沒有明顯的褒貶傾向?! ‘?dāng)前觀點挖掘領(lǐng)域主要有三種研究方法:基于規(guī)則、基于語言學(xué)和基于機器學(xué)習(xí)?;谝?guī)則與

3、基于語言學(xué)的方法存在著依賴語法規(guī)則與領(lǐng)域適用度不高等缺陷,基于機器學(xué)習(xí)的方法由于具有很強的領(lǐng)域適應(yīng)性和跨語言性,LDA主題模型作為機器學(xué)習(xí)模型在觀點挖掘領(lǐng)域有著重要應(yīng)用?! ?biāo)準LDA模型由于采用詞袋結(jié)構(gòu),割裂了詞語的位置以及上下文的語義關(guān)系,另外LDA主題模型在進行觀點挖掘研究時通常選擇相同類別的文檔形成一個語料庫來保證觀點挖掘效果,多類別文檔混合時則必須選取其他方式進行文本分類。鑒于以上兩點,本文對標(biāo)準LDA模型進行改進提出了DocumentclassificationLDA模型(DC-LDA,文本自分類LDA模型),將文本分類模塊引入后進行觀點挖掘研究?! ?模型描述 

4、 DC-LDA模型圖如圖1所示。  模型中參數(shù)列表如表1所示。  如圖1所示,LDA模型是一個三層結(jié)構(gòu),完成了文檔-主題-單詞的三層映射,通過狄利克雷分布與多項式分布為每個單詞選取一個特定的主題,同樣的本文在文檔層的基礎(chǔ)上添加類別這一概念,將標(biāo)準LDA模型擴展為四層結(jié)構(gòu),類別-文檔-主題-單詞,以此來完成文本分類的過程,在對語料庫進行觀點挖掘,同時為了克服詞袋模型的缺陷,本文以句子為單位來采樣主題標(biāo)簽,認為同一句子下的單詞隸屬于相同主題?! ocumentclassificationLDA模型的生成過程描述如下: ?。?)對一個語料庫:①由先驗參數(shù)λ得到語料庫下領(lǐng)域分布Ω~

5、Dir(λ);②由先驗參數(shù)β獲得每個領(lǐng)域下的單詞分布Φf,t~Dir(β)(其中f表示領(lǐng)域,取值1......F,t表示主題,取值1......T);  (2)?τ锪峽庵忻懇黃?文檔d:①為文檔選擇對應(yīng)領(lǐng)域標(biāo)簽,gd~Multinomial(Ω);②得出對應(yīng)領(lǐng)域下文檔的主題分布θfd~Dir(αf);  (3)對每一篇文檔d中的第m個句子:選擇對應(yīng)領(lǐng)域下的主題zd,m,其中zd,m~Multinomial(θfd); ?。?)對句子m中每個詞n(wd,m,n):選擇具體的單詞,wd,m,n~Multinomial(Φf,t)?! ?實驗  本實驗使用來自sougou實驗室提供

6、的中文語料庫,使用的版本為SougouC.Mini,其包括汽車、財經(jīng)、IT、健康、體育等10個類別的相關(guān)內(nèi)容,每個類別下包含1990篇文檔?! ≡谶M行實驗之前先將語料庫進行去停用詞處理,本文采用中國科學(xué)院計算技術(shù)研究所提供的漢語詞法分析系統(tǒng)ICTCLAS,其有著速度快、準確率高的特點因此在中文信息處理領(lǐng)域得到了廣泛應(yīng)用?! ”緦嶒炓哉Z料庫中的IT、體育、健康、教育、旅游、軍事這6個區(qū)分明顯的類別進行類別采樣分析,每個類別中選取800篇文檔作為訓(xùn)練語料,再抽取200篇作為測試語料,本文對領(lǐng)域判別精度定義如下:  在DC-LDA模型中為每一篇文檔采樣領(lǐng)域標(biāo)簽時本文考慮到了高詞頻的

7、單詞對文檔所在領(lǐng)域的貢獻,在采樣公式中取詞頻最高的前n個單詞隨著n取值的變化領(lǐng)域區(qū)分的精確度也會變化,對每個n的取值進行十次重復(fù)試驗,結(jié)果如圖2所示?! ≌Z料庫觀點抽樣結(jié)果如表3所示。  參考文獻  [1]http://www.cnnic.net.cn/  [2]PangB,LeeL.Opinionminingandsentimentanalysis[J].Foundationsandtrendsininformationretrieval,2008,2(1-2):1-135.  [3]InuiT.an

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。