資源描述:
《基于svm的微博文本情感傾向性識(shí)別》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、基于SVM的微博文本情感傾向性識(shí)別韓忠明,張慧,解筱夢(mèng)(單位北京工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院北京100048)摘要:本文針對(duì)微博數(shù)據(jù)進(jìn)行觀點(diǎn)句判別及情感傾向性分類進(jìn)行深入研究。本文以HowNet情感分析用詞表作為基本詞典,過(guò)濾其中的單字詞語(yǔ),并進(jìn)行網(wǎng)絡(luò)情感詞補(bǔ)充等,構(gòu)成一個(gè)情感詞典。使用基于支持向量機(jī)(SVM)分類方法,優(yōu)化情感特征項(xiàng)的選取,訓(xùn)練樣本,對(duì)被測(cè)數(shù)據(jù)進(jìn)行較為準(zhǔn)確的預(yù)測(cè)。在第一屆CCF自然語(yǔ)言處理與中文計(jì)算會(huì)議情感分析評(píng)測(cè)中,本文針對(duì)觀點(diǎn)句判別及觀點(diǎn)句情感傾向判定取得了較好的效果。關(guān)鍵詞:支持向量機(jī);情感詞典;特征選擇;EffectiveSentimentClassif
2、icationMethodBasedonSVMforMicrobloggingTextsHanZhongming,ZhangHui,XieXiaomeng(SchoolofComputerScienceandInformationEngineering,BeijingTechnologyandBusinessUniversityBeijing100048)Abstract:Inthispaper,wefocusonsentimentclassificationmethodforMicrobloggingtexts,BasedonHowNetemotionallexicons,an
3、emotionallexiconisconstructedafterunrelatedwordsarefiltered.WeproposeaoptimizationfeatureselectionmethodandthusclassifytextsusingSVMclassifier.InemotionalevaluationcompetitionofthefirstCCFConferenceonNaturalLanguageProcessing&ChineseComputing,proposedmethoddemonstratedgoodperformanceintermsof
4、precisionandrecall.Keywords:SVM,Emotionallexicons;Featuresection;用詞典及程度,副詞詞典結(jié)合情感詞極性值計(jì)算文檔句0引言子情感值來(lái)獲取文本的情感傾向性.考慮了語(yǔ)言風(fēng)格及本文的目的在于提出一種優(yōu)化的基于SVM方法判結(jié)構(gòu),但是對(duì)于微博短文本,表達(dá)情感的句式結(jié)構(gòu)非常別微博觀點(diǎn)及判別微博情感傾向性的方法。本文借鑒一少,甚至沒有,主要的一些詞就可以表達(dá)情感。2011年般文本分類方法,進(jìn)行算法的改進(jìn)。構(gòu)建微博情感詞典,YueLu[2]等人提出一種學(xué)習(xí)不同來(lái)源數(shù)據(jù),結(jié)合上下文對(duì)測(cè)試數(shù)據(jù)集進(jìn)行預(yù)處理,噪聲處理,優(yōu)化選取特征項(xiàng),自動(dòng)構(gòu)
5、建情感詞典的算法。YueLu等對(duì)于情感詞典的構(gòu)通過(guò)樣本模型化處理,計(jì)算得出測(cè)試數(shù)據(jù)是否為觀點(diǎn)句建進(jìn)行了新的擴(kuò)展及改進(jìn)。及觀點(diǎn)句的情感傾向分類。(2)基于機(jī)器學(xué)習(xí)的文本情感傾向性研究[4]文本傾向性分析技術(shù)不僅可以應(yīng)用于微博分析,對(duì)2011年,Dmitriy等人提出基于N-gram情感分類購(gòu)物反饋,產(chǎn)品評(píng)論、網(wǎng)絡(luò)輿情檢測(cè)及垃圾消息過(guò)濾等方法。使用數(shù)據(jù)中的長(zhǎng)短短語(yǔ)作為特征值對(duì)文本進(jìn)行情領(lǐng)域也有著廣泛的應(yīng)用,通過(guò)判別文本的情感傾向可以感分類。此方法使一些具有情感意義的組合詞,發(fā)揮他指導(dǎo)用戶購(gòu)買某種產(chǎn)品、監(jiān)控網(wǎng)絡(luò)輿情等,現(xiàn)有的中文們情感傾向的比重意義。但是,對(duì)于微博短文本,幾個(gè)[5]傾向
6、性分析主要研究定位于對(duì)句子或者段落等進(jìn)行判字組成的情感表述,效果不明顯。2010年,咎紅英別。針對(duì)微博式短文本,產(chǎn)品評(píng)論,電影評(píng)論,網(wǎng)絡(luò)即等人將機(jī)器學(xué)習(xí)中的經(jīng)典分類方法與規(guī)則方法相結(jié)合,時(shí)消息,論壇等的情感傾向性分析研究較少,本文以微用以分析新聞?wù)Z音文本的情感傾向,判斷其強(qiáng)弱。通過(guò)博為例進(jìn)行分析。SVM分類器來(lái)研究特征選擇方法及特征權(quán)重計(jì)算方法的組合對(duì)實(shí)驗(yàn)結(jié)果的影響。本文基于SVM分類方法,1相關(guān)工作針對(duì)微博數(shù)據(jù)特性進(jìn)行特征選擇及權(quán)重計(jì)算,進(jìn)而判斷文本情感傾向分析目的在于,判別自然語(yǔ)言中表達(dá)情感傾向分類。的情感傾向。許多文本情感分析主要針對(duì)中長(zhǎng)文本,對(duì)2任務(wù)分析于微博這樣的短文本
7、處理方法較少。國(guó)內(nèi)外對(duì)于文本情感傾向性的研究大體上分為兩大類:基于語(yǔ)義的文本情本文實(shí)驗(yàn)數(shù)據(jù)來(lái)源于第一屆CCF自然語(yǔ)言處理與感傾向性研究和基于機(jī)器學(xué)習(xí)的文本情感傾向性研究。中文計(jì)算會(huì)議中文微博情感分析測(cè)評(píng),測(cè)評(píng)對(duì)象是面向(1)基于語(yǔ)義的文本情感傾向性研究。中文微博的情感分析核心技術(shù),包括觀點(diǎn)句識(shí)別、情感[1]2011年,何鳳英以HowNet情感詞語(yǔ)集為基準(zhǔn),傾向性分析和情感要素抽取。本論文參與任務(wù)一,任務(wù)構(gòu)建中文基礎(chǔ)情感詞典,計(jì)算并標(biāo)注情感詞的極性。利二的測(cè)評(píng)工作。2.1任務(wù)一觀點(diǎn)