基于自動標注訓練集的中文微博情感分類的研究

基于自動標注訓練集的中文微博情感分類的研究

ID:34599393

大小:2.97 MB

頁數(shù):53頁

時間:2019-03-08

基于自動標注訓練集的中文微博情感分類的研究_第1頁
基于自動標注訓練集的中文微博情感分類的研究_第2頁
基于自動標注訓練集的中文微博情感分類的研究_第3頁
基于自動標注訓練集的中文微博情感分類的研究_第4頁
基于自動標注訓練集的中文微博情感分類的研究_第5頁
資源描述:

《基于自動標注訓練集的中文微博情感分類的研究》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫

1、萬方數(shù)據(jù)48萬方數(shù)據(jù)致謝時光荏苒,歲月如梭,研究生生活已接近尾聲,回顧這些歲月,有收獲,有感動,也有遺憾。值此碩士學位論文完成之際,謹向所有給予我關系、指導和幫助的老師、親人、朋友表達我真摯的感激之情。首先,感謝我的導師陳雁翔老師,表示我最由衷的感謝,感謝陳老師在我攻讀碩士學位期間對我所付出的一切心血。陳老師治學嚴謹?shù)膽B(tài)度激勵著我們,在做人、做事、做科研方面始終影響著我們。我知道在人生的道路上,我還有很長的路要走,但不管怎樣,這種影響將始終在我身旁。謝謝陳老師!感謝孫曉老師!盡管他在科研、教學工作上很繁忙,但總會定時地在科研上給予我指導和關心,總能在關鍵的時候給我指明正確的

2、研究方向。從論文選題、文獻收集到實驗,孫老師都給了我很多幫助。在此,表示誠摯的感謝。希望孫老師在未來的生活中,工作順利,天天快樂。感謝情感計算與先進智能機器實驗室的所有同學和我的室友,是你們陪我走完了這美好的研究生時光,特別是汪海波、章琴、宋偉男、陶志穎、董旭文、劉盛中等。和他們之間的同學之情,友誼之情是我上研究生的最大收獲,謝謝你們的陪伴。最后還要感謝我的家人,感謝他們這么多年以來對我的鼓勵和支持,讓我能夠順利完成學業(yè)。作者:劉偉朋2014年4月I萬方數(shù)據(jù)摘要微博已經(jīng)成為最受網(wǎng)民歡迎的社交網(wǎng)絡平臺之一,它的快速發(fā)展使其顯示出了巨大的商業(yè)價值和社會價值。用戶已經(jīng)習慣在微博上

3、獲取、分享信息以及發(fā)表對于時事熱點話題或者產(chǎn)品的觀點意見,這些觀點往往帶有豐富的情感色彩,因此,面向大規(guī)模微博數(shù)據(jù)的情感挖掘具有重大意義。通過情感挖掘可以及時了解用戶對輿論熱點、產(chǎn)品、政策等的反應,有助于為用戶自身、政府機構、企業(yè)等提供決策支持。到目前為止,英文微博情感挖掘已經(jīng)有了大量研究成果,而中文微博的情感分析還處于起步階段。本文的主要研究工作包括以下幾點:1.以用戶數(shù)最多的微博平臺—新浪微博為研究對象,通過其開放平臺API獲取大規(guī)模的原始微博數(shù)據(jù),分析了微博數(shù)據(jù)的特征并比較了微博文本和傳統(tǒng)網(wǎng)絡文本的不同。2.由于目前尚無高標準的已標注情感信息的微博語料庫,本文提出了一

4、種基于表情符號和心理詞匯的自動標注微博語料訓練集的方法,獲取正負情感分類和七類情感分類的訓練集,該方法省去了大量的人工標注的負擔,減少了傳統(tǒng)標注方式對領域、主題和時間等因素的依賴。基于此方法構建了一定規(guī)模的語料庫。3.本文把微博情感傾向性分類任務主要分為兩種,即正負面情感分類和七類情感(高興、喜愛、驚、焦慮、哀、怒、惡)分類。我們將自動標注好的用于兩種分類任務的語料庫作為訓練集構建微博情感分類器,用以對微博文本進行情感極性分類。4.本文針對上述兩種情感分類任務,分別進行了基于n-gram特征項的實驗,以及兩種特征選擇方法(信息增益、卡方統(tǒng)計)和兩種分類算法(樸素貝葉斯、支持

5、向量機)的交叉驗證實驗。實驗結果表明,正負情感分類的整體性能優(yōu)于七類情感分類。在正負情感分類任務中,Unigram特征項的性能優(yōu)于Bigram;信息增益結合樸素貝葉斯的組合性能最佳。七類情感分類任務中,Bigram特征項的性能優(yōu)于Unigram;兩種特征選擇方法結合樸素貝葉斯和支持向量機算法實驗時,F(xiàn)-測度值的差異性不大。關鍵詞:微博;情感分析;自動標注;特征選擇II萬方數(shù)據(jù)ABSTRACTMicrobloghasbecomeoneofthemostpopularsocialnetworkingbynetizens,whoserapiddevelopmenthasshown

6、thehugecommercialvalueandsocialvalue.Theusershaveusedtofindandshareinformationfrommicroblogandpublishingtheopinionsofthecurrenthotspottopics.Theseopinionsareoftenattachedwithemotion,therefore,itisvaluabletoprovidelarge-scaleemotion-miningofthemicroblogdata,whichcantimelyunderstandtheuser’s

7、responsetothepublichotspots,products,andpolicies,etcandcanprovidethedecisionsupportfortheuser,governmentagenciesandenterprises.Sofar,thesestudiesmainlyconcentrateonmicrobloginEnglishandthestudiesonmicrobloginChinesearestillinitsinfancy.Themainresearchworksofth

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。