資源描述:
《基于英文博客文本的情感分析研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、第21卷第8期計算機技術與發(fā)展Vol.21No.82011年8月COMPUTERTECHNOLOGYANDDEVELOPMENTAug.2011基于英文博客文本的情感分析研究汪正中,張洪淵(溫州大學,浙江溫州325035)摘要:隨著互聯(lián)網的迅猛發(fā)展,對網絡文本帶有觀點性內容的主觀性信息的自動情感分析成為了近期Web信息處理的一個新興研究熱點。文中對英文博客文本的情感分析進行了研究。提出了以詞為單位進行特征的選取,并在文本的情感分析中加入了預處理過程。使用機器學習的方法,采用電影評審文本作為語料庫,選取在英文文本分類領域較好的支持2向量機作為訓練
2、器,特征的選取分別采用信息增益、互信息和χ統(tǒng)計的方法。實驗結果表明,該方法獲得了較滿意的結果,與傳統(tǒng)的基于N-Gram特征選取方法及基于無監(jiān)督學習的方法相比,該方法較之都有所提高。關鍵詞:博客;文本情感分析;預處理;特征選擇;支持向量機中圖分類號:TP393.4文獻標識碼:A文章編號:1673-629X(2011)08-0153-04ResearchofSentimentAnalysisonEnglishBlogTextWANGZheng-zhong,ZHANGHong-yuan(WenzhouUniversity,Wenzhou325035,
3、China)Abstract:WiththerapiddevelopmentofInternet,theautomaticsentimentanalysisforsubjectivitytextbecomerecentresearchhotspots.StudythesentimentanalysisforEnglishweblogtext.Itusedthewordastheunitforfeatureselectionandaddthepretreatmentintextsentimentanalysisprocess.Appliedthe
4、machinelearningmethodtomoviereviewtextsentimentanalysis,selectedthesupportvectorma-chinetoconstructtheclassifier,usedthreefeatureselectionmethods:informationgain,mutualinformationandchi-squarestatistic.Theresultsindicatethatobtainsatisfactoryeffect,comparedwiththetraditional
5、methodbasedN-Gramandtheunsupervisedlearningapproa-ches,itsresultshaveimproved.Keywords:weblog;textsentimentanalysis;pretreatment;featureselection;supportvectormachine0引言正面類別(Positive)和負面類別(Negative)。隨著Web2.0的普及與發(fā)展,博客作為其典型的代表獲得了廣泛的應用。由于用戶更多地參與到信息1研究概述的產生,越來越多的具有個人觀點性的內容出現(xiàn)博客、目
6、前比較公認的文本情感分析比較系統(tǒng)的研究工[1]論壇等網絡媒體上,這些在線表述的觀點性內容對于作開始于Pang等人采用基于監(jiān)督學習方法對電影[2]電子商務、網絡輿情分析、信息檢索等方面都具有重要評論文本進行情感傾向性分類和Turney等人采用的意義和實用價值。對網絡文本帶有觀點性內容的自的基于無監(jiān)督學習對文本情感傾向性分類的研究。動情感分析成為了近期Web信息處理的一個新興的Pang等人于2002年首先在情感分析領域引入了機器研究熱點,其中的核心技術內容便是文本的情感分析。學習的方法,利用樸素貝葉斯(NaiveBayes)、最大熵文本的情感分析,
7、就是對Web上的、由用戶主動發(fā)布(MaxEntropy)、支持向量機(SVM)等在文檔級別上對[3]的、帶有情感色彩的主觀性文本信息進行有效的分析整個文本進行自動的情感分類。Dave等人于2003和挖掘,識別出其所表達內容的情感傾向。所謂的情年采用詞的傾向來代表文章的傾向,給出了一個用于感傾向就是指文本內容所反映的正面或負面的傾向評審意見分類的通用評分函數(shù),他們的方法同時考慮性,目前已有的研究通常將文本情感傾向分成兩類,即了詞的傾向強度。文獻[4]通過機器學習和圖中最小割的方法對文本中的句子進行主觀性判斷。Kim和[5]Hovy等人在2004年
8、提出了基于同義詞典WordNet收稿日期:2011-01-19;修回日期:2011-04-22基金項目:浙江省自然科學基金項目(Y1080112)的方