基于中文微博的情感分類技術(shù)-研究

基于中文微博的情感分類技術(shù)-研究

ID:34186730

大小:3.00 MB

頁數(shù):65頁

時間:2019-03-03

上傳者:U-22505
基于中文微博的情感分類技術(shù)-研究_第1頁
基于中文微博的情感分類技術(shù)-研究_第2頁
基于中文微博的情感分類技術(shù)-研究_第3頁
基于中文微博的情感分類技術(shù)-研究_第4頁
基于中文微博的情感分類技術(shù)-研究_第5頁
資源描述:

《基于中文微博的情感分類技術(shù)-研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫

萬方數(shù)據(jù)東北大學碩士學位論文AbstractWiththerapiddevelopmentofnetworktechnology,Weibo,asanewsocialplatform,hasgraduallypenetratedintoeveryaspectofpeople’Slives.Weiboisfullofusers’viewsandopinionstowardsproducts,entertainments,socialeventsandSOon,whichcontainsawealthofemotionalinformation.Analyzingusers’emotionalattitudeduringaperiodoftimeortowardsaparticulartopic,classifyingtheemotionscontaininWeiboeffectivelyhasgreatcommercialvalueandsocialvalue.Itnotonlyallowsbusinessmentoobtainusers’viewsinstantly,butalsoallowsgovernmentdepartmentstokeepabreastofsocialdynamics,listentothevoiceofthepeople,whichhasagoodmonitoringroleofpublicopinion.Inthisthesis,wewilldodeepresearchonChineseWeibosentimentclassification,includingsentimentpolarityclassificationandsentimentfine-grainedclassification.(1)Sentimentpolarityclassificationisstudied.WeclassifythesentimentofChineseWeibointopositiveandnegative,andimprovesometechnologythatinvolves.Firstly,informationgain,thetraditionalmethodoffeatureselectiondoesnotconsiderthefeatures’appearanceinintra-classandinner-class,tosolvetheproblem,weintroducetwofactors,concentrationratioanddistributedratio.Secondly,weconsiderWeibo’Scharacteristicswhenwecalculatethefeatureweight,wecombinethefeature’Semotionalinformationand10cationinformationwithtlletraditionalTF.IDFcalculationmethod.(2)Sentimentfine—gainedclassificationisstudied.WeclassifythesentimentofChineseWeibointosevencategories,includinghappiness,like,surprise,anger,sadness,fearanddisgust.Weanalyzeandimprovethetraditionalmethods.Firstly,weexpendstheexistingmulti·classemotionaldictionarytocompensateforitslackofwordscoverage.WemakeuseofWeibotrainingcorpustogeneratecandidatesentimentfeatures,proposeasentimentfeatureselectionTF—IDFmethodbasedonvariance.Thencalculatethefeature’scategoryandemotionalstrengthandadditintoIII 萬方數(shù)據(jù)東北大學碩士學位論文Abstractthemulti.classemotionaldictionary.Secondly,wecalculatetheWeibofine-grainedsentimentscorebasedontheexpandedemotionaldictionary.IntheprocessofWeibosentimentfine—grainedclassification,wefirstlyclassifytheWeiboemotionintotwopolaritiesandthenintofine—grained,finallyproposeahierarchical-basedalgorithmforWeibosentimentfine—grainedclassification。Experimentalresultsshowthattheproposedsentimentpolarityclassificationmethodandsentimentfine—grainedclassificationmethodhaveabetterresultinaccuracy,recall,andFValuethantraditionalmethod.Keywords:featureselection;emofionaldictionary;ChineseWeibo;sentimentclassification.Ⅳ. 萬方數(shù)據(jù)東北大學碩士學位論文目錄目錄獨創(chuàng)性聲明???????????????????????I摘要?????????????????????????.ⅡAbstract?.???????????????????????.??.?????.??.?????..Ill第1章緒論??????????????????????.11.1研究背景及意義??????????????????????????11.1.1研究背景??????????????????????????..11.1.2研究意義??????????????????????????..11.2國內(nèi)外研究現(xiàn)狀??????????????????????????.21.2.1文本情感分類研究現(xiàn)狀?????????????????????21.2.2微博情感分類研究現(xiàn)狀?????????????????????41.3本文研究內(nèi)容???????????????????????????51.4本文組織結(jié)構(gòu)???????????????????????????.6第2章情感分類相關(guān)技術(shù)?????????????????72.1主要研究方法???????????????????????????72.2文本表示模型???????????????????????????72.2.1向量空間模型????????????????????????..82.2.2布爾模型??????????????????????????..82.3特征選擇方法???????????????????????????92.3.1文檔頻率??????????????????????????..92.3.2信息增益???????????????????????????92.3.3互信息???????????????????????????102.3.4卡方統(tǒng)計??????????????????????????1l2.4權(quán)重計算方法???????????????????????????112.5文本分類算法???????????????????????????132.5.1樸素貝葉斯算法???????????????????????132.5.2K攝近鄰分類法???????????????????????..142.5.3支持向量機?????????????????????????152.6本章小結(jié)????????????????????????????..16第3章微博情感極|生分類研究???????????????17.V一 萬方數(shù)據(jù)東北大學碩士學位論文目錄3。1微博特點分析???????????????????????????183.2微博數(shù)據(jù)預處理?????????????????????????..193.2.1噪音處理??????????????????????????.193.2.2中文分詞??????????????????????????203.2.3去停用詞??????????????????????????2l3.3改進的信息增益特征選擇?????????????????????。2l3.3.1信息增益方法的不足?????????????????????223.3.2信息增益方法的改進?????????????????????.223.4改進的TF.IDF權(quán)重計算??????????????????????233.4.1TF.IDF方法不足???????????????????????243.4.2TF—IDF方法的改進??????????????????????243.5基于SVM的微博情感極性分類???????????????????303.6本章小結(jié)????????????????????????????..32第4章微博情感細粒度分類研究??????????????334.1多類別情感詞典的構(gòu)建??????????????????????..334.2多類別情感詞典的擴展??????????????????????..354.2.1候選情感特征的生成?????????????????????354.2.2情感特征抽取????????????????????????.374.2.3情感傾向及強度判定?????????????????????394.3基于情感詞典的情感細粒度分類??????????????????..414.3.1副詞對情感特征的影響????????????????????414.3.2微博情感計算????????????????????????434.4基于層次的情感細粒度分類????????????????????..454.5本章小結(jié)????????????????????????????..48第5章實驗??????????????????????495.1實驗基礎(chǔ)?????????????????????????????495.1.1實驗數(shù)據(jù)來源????????????????????????495.1.2實驗環(huán)境??????????????????????????495.1.3實驗結(jié)果評判標準?????????????????????.505.2微博情感極性分類實驗??????????????????????..505.2.1實驗思路??????????????????????????50—VI. 萬方數(shù)據(jù)東北大學碩士學位論文目錄5.2.2實驗設(shè)計及結(jié)果分析?????????????????????5l5.3微博情感細粒度分類實驗?????????????????????..535.3.1實驗思路??????????????????????????535.3.2實驗設(shè)計及結(jié)果分析?????????????????????535.4本章小結(jié)?????????????????????????????56第6章總結(jié)與展望???????????????????.。576.1論文總結(jié)????????????????????????????..576.2進一步工作???????????????????????????..57參考文獻????????????????????????59致謝?????????????????????????63 萬方數(shù)據(jù)東北大學碩士學位論文第1章-織tee1.1研究背景及意義1.1.1研究背景第1章緒論21世紀以來,隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展以及互聯(lián)網(wǎng)技術(shù)的日益普及,互聯(lián)網(wǎng)用戶的數(shù)日呈現(xiàn)指數(shù)增長。據(jù)第33次中國互聯(lián)網(wǎng)絡(luò)信息中心(cNNIc)報告數(shù)據(jù)顯示,截至2013年12月,中國網(wǎng)民人數(shù)已達到6.18億,人們所處的社會正在發(fā)生著一場信息化的變革。隨著Web2.0時代的到來,大量基于互聯(lián)網(wǎng)的社交網(wǎng)絡(luò)平臺涌現(xiàn)出來,例如論壇、博客等,它們給人們的生活方式和社會運行方式帶來了深刻的影響?;ヂ?lián)網(wǎng)在很大程度上改變了人們表達方式,它不再僅僅是人們接受信息的媒介,更成為了人們發(fā)表觀點,表現(xiàn)思想的重要平臺。人們從被動的接受傳統(tǒng)媒體到現(xiàn)在可以在網(wǎng)絡(luò)上主動積極的發(fā)表自己的觀點,極大的擺脫了傳統(tǒng)媒體的束縛。越來越多的人愿意通過網(wǎng)絡(luò)平臺網(wǎng)站交流觀點,分享生活。微博無疑是Web2.0時代最具影響力的代表產(chǎn)品之一。微博,即微型博客,是一個基于用戶關(guān)系的社交網(wǎng)絡(luò),是傳播、交流、獲取信息的主要平臺。與傳統(tǒng)的博客相比,微博的文本內(nèi)容更簡潔,具有更強的實時性、更新性、互動性。2006年,美國推出的Twitter,是世界上第一個微博網(wǎng)站,也是世界上最具影響力的微博,從推出即進入了迅速發(fā)展階段。在我國,2009年8月新浪網(wǎng)推出的“新浪微博”內(nèi)測版,也標志著微博正式進入中國網(wǎng)民的生活。微博作為新興的科技信息產(chǎn)物之一,問世以來,在我國得到了廣泛的應(yīng)用,在短時間內(nèi)發(fā)展并擁有了大量的用戶。目前,新浪微博已成為國內(nèi)最受歡迎的微博平臺,截至2013年12月底,新浪微博的注冊用戶規(guī)模已突破5億人,其內(nèi)容涵蓋了社會、科技、體育、娛樂、公益等各領(lǐng)域。微博的出現(xiàn),越來越多的用戶愿意在微博上發(fā)表觀點,表達自己的思想,分享自己的情感。微博以其強大的信息傳播能力和公眾參與度,已經(jīng)成為許多重大事件消息公布的第一現(xiàn)場,消息傳播的重要平臺。1.1.2研究意義微博龐大的用戶群體,使得微博平臺可以在很短的時問內(nèi)迅速匯聚海量的信息。微博的海量信息中包含著豐富多彩的內(nèi)容,話題涵蓋面廣,不同使用者及不.1. 萬方數(shù)據(jù)東北大學碩士學位論文第1章緒論同的使用目的使得這些內(nèi)容看似雜亂瑣碎,但卻蘊涵著巨大的潛在信息價值。由于大部分微博內(nèi)容都是用戶原創(chuàng),大部分微博信息都包含著豐富的主觀因素,表達了人們的情感態(tài)度。這些帶有情感傾向的微博的采集和分析技術(shù)已經(jīng)成為企業(yè)及個人都十分感興趣的內(nèi)容。某一時間段內(nèi)的微博情感,反映了網(wǎng)民在該時間段內(nèi)的情緒狀態(tài),是社會輿情監(jiān)控的有力工具,政府及有關(guān)部門可以根據(jù)微博的內(nèi)容,了解網(wǎng)民的情緒狀態(tài),傾聽不同階層、不同生活領(lǐng)域的民眾心聲,對社會輿論起到及時的監(jiān)控作用‘11。同時針對這些熱點話題的討論可以在短時間內(nèi)凝聚網(wǎng)民的廣泛見解,反映人們對某個熱點事件的觀點傾向,例如,2013年的“王菲李亞鵬離婚”、“周渝民金鐘稱帝"到今年的“昆明傷人”、“馬航飛機失聯(lián)”、“周一見”事件等等。針對微博話題的情感分類具有很強的商業(yè)價值。例如,在產(chǎn)品領(lǐng)域,消費者希望根據(jù)用戶對產(chǎn)品的評價好壞來決定自己的購買意向【2】;生產(chǎn)商可以根據(jù)用戶對產(chǎn)品的評價,從而對產(chǎn)品進行改進以提高其自身的競爭力;在電影領(lǐng)域,網(wǎng)友可以通過瀏覽針對某一電影的評論,對電影內(nèi)容的概括進行了解,同時演員及導演也需要根據(jù)網(wǎng)友的影評反饋來對票房進行預測等。微博作為新興的社交網(wǎng)絡(luò)平臺,其應(yīng)用已經(jīng)逐步滲透到人們生活的各個方面。對微博文本的情感進行分析分類,及時了解微博用戶群體在某一時間段內(nèi)或針對某一話題的情感態(tài)度,是十分有必要的。盡管微博內(nèi)容簡潔,篇幅短小,但其龐大的用戶群體和規(guī)模,每天有大量的信息被發(fā)布、轉(zhuǎn)載和分享,使得網(wǎng)絡(luò)信息規(guī)模呈爆炸式增長,其信息量巨大且多種多樣,如果僅依靠人工手段進行收集、整理是不現(xiàn)實的。如何依靠相關(guān)算法,使計算機智能化的對微博所包含的情感態(tài)度進行分類,成為當今非常有價值的研究領(lǐng)域,本文將對中文微博的情感分類技術(shù)做深入的研究。1.2國內(nèi)外研究現(xiàn)狀微博情感分類是文本情感分類研究的一個重要方向,其理論基礎(chǔ)來源于文本情感分類。本節(jié)首先介紹文本情感分類的研究現(xiàn)狀,然后對微博情感分類研究現(xiàn)狀進行了介紹。1.2.1文本情感分類研究現(xiàn)狀情感分類作為一個較新的研究領(lǐng)域,近年來越來越受到研究學者們的關(guān)注。.2. 萬方數(shù)據(jù)東北大學碩士學位論文第1章緒論情感分類,也叫情感分析、觀點挖掘,即對帶有情感色彩的文本進行分析、處理的過程【3】。涉及自然語言處理、信息檢索、數(shù)據(jù)挖掘等多個領(lǐng)域。A.Esulif41等學者將情感分類分為三個任務(wù):a.對文本的主客觀性進行判斷(Determiningsubjectivity)b.對文本的情感傾向性進行判斷(Determiningorientationpolarity)c.對文本的情感強度進行判斷(Determiningthestrengthoforientation)本文將三類任務(wù)分別理解為主客觀分類,情感極性分類和情感細粒度分類,接下來對三個任務(wù)做簡要介紹。(1)主客觀分類近年來,主客觀分類是情感分類的一個熱點研究方向。其目標是判斷一個文本是主觀的還是客觀的。對于主客觀的分類標準,目前還沒有一個統(tǒng)一定論,多數(shù)的學者都是通過自身的理解進行判斷。大部分都依據(jù)以下原則:原則1:文本中表達了對某一人或事的個人觀點,屬于主觀文本。原則2:文本中流露了個人情感傾向,屬于主觀文本。原則3:句子表達了對未來人或事物的預測和期許,屬于主觀文本。.目前,主客觀分類的主流研究方法是基于特征的分類方法。即選擇能夠有效區(qū)分主客觀文本的特征來對主客觀文本進行分類。其主要技術(shù)是分類特征的選取。wiebe【51等將代詞、名詞、形容詞、副詞等詞性和句子位置作為主客觀分類特征;Yaol6】根據(jù)文檔中的標點符號、人稱代詞、數(shù)字等非詞語信息來判別文本的主客觀性。,爹主客觀分類是主觀性文本情感分類的基礎(chǔ)工作。由于本文的情感分類的目標是微博文本,微博中的大部分內(nèi)容都是原創(chuàng)的,具有強烈的主觀色彩。因此,本文對微博文本的主客觀分類不做深入討論。(2)情感極性分類情感的極性分類是對主觀性文本的進一步劃分,是現(xiàn)階段情感分類研究中多數(shù)采用的方法。它是將文本的情感分為正向情感和負向情感兩種極性。正向情感是指人們對事物所持有的積極的態(tài)度,如支持、肯定、贊美、信任等。負向情感是指人們對事物所持有的消極的態(tài)度,如反對、仇恨、鄙視。厭惡等。針對情感極性的分類的研究很多,例如,Pang和Lil7】首次提出的將機器學習算法應(yīng)用到情感分類中,以電影評論作為實驗數(shù)據(jù),采用NB,SVM,ME三種分類方法,將情感極性分為正向情感和負向情感。Agarwal提出基于單字、雙字.3. 萬方數(shù)據(jù)東北大學碩士學位論文第1章緒論和詞性的復合特征抽取算法,實驗表明使用該方法提取出的特征向量使用SVM和貝葉斯分類器分類效果相比其他算法要好[81。BespalovD【9】等使用圖中的節(jié)點來表示文本,將情感極性相同的文本映射到圖中,待分類文本與圖中節(jié)點比較從而判斷情感類別。文獻【lo]根據(jù)情感詞典,結(jié)合否定詞識別和程度副詞識別等技術(shù),對不同領(lǐng)域的評論集進行分類,最終獲得了較好的實驗效果。王素格【1l】等人通過五種資源構(gòu)建中文情感詞表,提出了一種基于情感詞表的加權(quán)線性組合的句子情感分類方法。何鳳英【121等人提出基于語義理解的中文博客情感分析方法,以HowNet為基準構(gòu)建基礎(chǔ)情感詞典,用詞語相似度計算詞語的情感值,同時在修飾詞、語言風格等方面對情感傾向進行判斷。(3)情感細粒度分類人類的情感是復雜多樣并且不斷變化的,只將情感類別劃分為正向和負向并不能完全反映出人們的情感狀態(tài),因此,相關(guān)學者對正負情感進行了進一步細粒度劃分。Quan等【131基于情感詞來對中文情緒語料庫中句子進行情緒識別。文獻[141采用層次分類方法,先識別大類,再對同一級小類進行分類。將情感分為5個類別,分層訓練SVM分類器。李靜等【15】利用thayer模型,通過VSM模型計算情感詞與情感類別的共現(xiàn)關(guān)系,將歌詞的情感分類8大類。不同于主客觀分類和情感的極性分類,情感的細粒度分類目前還沒有統(tǒng)一的情感劃分標準和分類方法。這方面的研究成果并不多,是亟待提高的一個領(lǐng)域,本文在后面的內(nèi)容中對情感的細粒度分類問題進行了初步探討。目前,普遍受到認可的情緒分類是由大連理工大學所構(gòu)建的多類別情感詞典【16】,它將情感分為基本情緒包括樂(happiness)、好(1ike)、驚(surprise)、悲(sadness)、惡(disgust)、怒(anger)、懼(fear)七大類。本文依據(jù)這七類情感,將正向情感劃分為樂(happiness)、好(1ike)、驚(surprise)三類,將負向情感劃分為悲(sadness)、惡(disgust)、怒(anger)、懼(fear)四類,以此標準對微博進行情感細粒度分類。1.2.2微博情感分類研究現(xiàn)狀國外針對微博的情感分析技術(shù)起步的比較早,文獻‘17。20l都是以Twitter上的微博為語料展開工作。Davidov和Tsur[17】等人利用50個標簽和l5個笑臉符號作為情感標簽,以此作為訓練集,減少了入工標注的勞動,運用四種不同的特征選擇方法,結(jié)合KNN分類算法來對tweets進行情感分類。Go和Bhayanill3】等人利用.4. 萬方數(shù)據(jù)東北大學碩士學位論文第1章緒論表情符號標注tweets作為訓練集,訓練NB,ME和SVM分類器,提出了一種距離監(jiān)督學習的分類方法,實驗準確率達到80%。Wang[19】等人構(gòu)建了基于標簽共現(xiàn)的圖模型,提出了利用每條tweet中的標簽進行主題情感分類的方法。MakotoOkazaki等人120】利用微博的實時特性,提出了一個重大事件告知模型,以日本地震為例,用“地震”“晃動”兩個詞為關(guān)鍵字,以5s為時問間隔,運用SVM算法對提取來的tweets實時數(shù)據(jù)進行情感分類,實驗證明,該模型在重大事件傳播方面要快于新聞報道。SubhabrataMukherjee[2l】提出了一種針對twitter的情感分析的輕量級方法,通過對情態(tài)動詞、否定詞、連詞等虛詞的含義的考察,結(jié)合常見的N.gram、詞性等特征,分別利用詞典與SVM分類器,實現(xiàn)了情感極性判別準確率的提升。中文微博近兩年來得到廣泛的關(guān)注。謝麗星[ZZl在特征選擇上采用表情、情感詞典、情感短語、上下文四種主題無關(guān)的特征共用,基于SVM算法對微博消息進行了情感分類,準確率達到66.467%。文獻【23】結(jié)合網(wǎng)絡(luò)新詞和基礎(chǔ)情感詞,構(gòu)建了包括基礎(chǔ)情感詞典、表情符號詞典、否定詞詞典和雙重否定詞詞典四個詞典,同時融合語言學特征和微博情感表達特征,提出了一種新的基于極性詞典的情感分類方法。目前,中文微博的情感分類正處于起步階段,針對這方面的研究并不多,而且大部分都是針對微博的情感極性分類,即將微博文本的情感分為正向和負向,對微博的情感細粒度分類的研究也是一個有待研究的領(lǐng)域。1.3本文研究內(nèi)容傳統(tǒng)的文本情感分類主要處理的是規(guī)范的文本,而且對情感主要進行的是正負向的極性分類。對于中文微博這種篇幅短小,主觀色彩強烈、主題單一的短文本來說,傳統(tǒng)的文本分類方法并不完全適用于微博情感分類,同時,情感的復雜多樣性要求我們對情感的細粒度分類做深入探討。因此,本文主要中文微博文本情感分類相關(guān)技術(shù)進行研究,包括情感的極性分類和情感的細粒度分類。主要研究內(nèi)容如下:(1)對信息增益特征選擇方法進行了補充。傳統(tǒng)的信息增益特征選擇方法在進行特征選擇時,考慮了特征項出現(xiàn)和不出現(xiàn)的情況,但并沒有考慮特征項在類內(nèi)和類間出現(xiàn)情況,本文引入類間集中度和類內(nèi)分散度兩個因子,對信息增益方法進行補充。.5. 萬方數(shù)據(jù)東北大學碩士學位論文第1章緒論(2)對TF—IDF權(quán)重計算方法進行了改進。傳統(tǒng)的TF—IDF權(quán)重計算方法主要是基于統(tǒng)計的,忽略了特征項的語義信息。在微博文本情感分類中,情感特征和位置特征對特征項的權(quán)重影響不可小視,本文將特征項的情感特征和位置特征融入特征項的權(quán)重計算過程,對TF—IDF進行了改進。(3)對現(xiàn)有的多類別情感詞典進行了擴展。為了彌補現(xiàn)有的多類別情感詞典在詞語覆蓋面上的不足,本文利用微博訓練語料生成候選情感特征,提出了基于方差的TF—IDF情感特征選擇方法,并對選擇出的情感特征計算傾向和強度,將其補充進情感詞典。(4)根據(jù)擴展了的多類別情感詞典,對微博情感細粒度情感值進行計算,提出了基于層次的微博情感細粒度分類算法。1.4本文組織結(jié)構(gòu)本文共分為6個章節(jié),論文結(jié)構(gòu)和各個章節(jié)的主要內(nèi)容如下:第1章闡述了本文的研究背景及意義,同時對國內(nèi)外相關(guān)技術(shù)的現(xiàn)狀進行了簡要介紹。第2章介紹了情感分類過程中使用到的關(guān)鍵技術(shù),包括文本表示模型、文本特征選擇、特征權(quán)重的計算及三個經(jīng)典的分類算法。第3章主要研究微博情感的極性分類,提出了文本特征選擇和權(quán)重計算過程的改進算法,將改進后的算法應(yīng)用于機器學習算法,對微博情感進行極性分類。第4章主要研究微博情感的細粒度分類,提出基于方差的TF—IDF方法擴展多類別情感詞典,利用情感詞典對微博J隋感進行細粒度分類,進一步提出基于層次的微博情感細粒度分類算法。第5章進行了實驗測試,從查準率、查全率和F值三方面對結(jié)果數(shù)據(jù)進行分析。第6章對全文進行總結(jié),指出了現(xiàn)有理論的一些不足,并提出了未來的改進方向。.6. 萬方數(shù)據(jù)東北大學碩士學位論文第2章情感分類相關(guān)技術(shù)2.1主要研究方法文本情感分類的研究涉及到機器學習、信息檢索和數(shù)據(jù)挖掘等多個領(lǐng)域知識。目前主流的情感分類研究方法主要有兩種:基于情感詞典的分類方法和基于機器學習分類的方法阱】。(1)基于情感詞典的情感分類基于情感詞典的情感分類是文本情感分類中最直觀的方法。主要是根據(jù)基準情感詞典和文本的語義信息來進行情感詞性加權(quán),其關(guān)鍵技術(shù)是情感詞典的構(gòu)建和情感詞的情感信息加權(quán)。目前常用的情感詞典有:英文的WordNet,中文的HowNet情感分析用詞語集,NTU情感詞典等。基于情感詞典的方法是一種無監(jiān)督的學習方法[251,對于正向情感信息和負向情感信息差距明顯的時候具有很好的實驗效果,然而對于正負向情感信息個數(shù)相同、情感信息模棱兩可的情況,其情感分類的準確率還有待提高,同時基于情感詞典的情感分類方法對情感詞典中情感詞語的覆蓋范圍要求比較高,情感詞典的范圍很難涵蓋各個領(lǐng)域,因此,具有一定的局限性。(2)基于機器學習的情感分類基于機器學習的情感分類,將情感分類問題視為傳統(tǒng)的文本分類問題?;跈C器學習的情感分類,其關(guān)鍵在于選擇合適的特征來對文本進行表示,霧并運用相關(guān)的分類算法對特征進行訓練和分類口61。主要涉及到的技術(shù)是分類特征的抽取和分類算法的選擇?;跈C器學習的分類方法不依賴于情感詞典,不會受到情感詞典規(guī)模的限制,因此被廣泛應(yīng)用于文本的情感分類中,是目前最普遍使用的情感分類方法。然而,該方法需要大量人工標注好極性的文本訓練語料,對標注語料的準確性和規(guī)模要求很高。2.2文本表示模型在對文本進行分類之前,首先需要將文本從無結(jié)構(gòu)的原始形式轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),以便計算機能夠理解識別,將一個非結(jié)構(gòu)化的文本轉(zhuǎn)化為結(jié)構(gòu)化文本的過程,稱之為文本表示。目前,常見的文本表示模型是向量空間模型(VSM)和布爾模型(BooleanModel)。.7. 萬方數(shù)據(jù)東北大學碩士學位論文笫2章情感分類相關(guān)技術(shù)2.2.1向量空間模型向量空間模型(VectorSpaceModel,VSM)是由著名學者Salton于1975年提出的文本表示模型,它以空間上的相似度表達語義上的相似度,是最常用的文本表示模型【271。其主要思想是:將文本看成是一組特征項的集合,對于每一個特征項,根據(jù)其對文本的表示程度賦予一個權(quán)重。從而將文本表示成一個帶權(quán)重的特征項的集合。例如,一個文本d可以抽象表示為一個向量:d={fl:wI,t2:w2,...,乙,%)(2.1)其中,t代表文本d中的一個特征項,%為I的權(quán)重,l≤后≤n。通常公式2.1可以簡記為公式2.2形式。d={Ⅵ,w2,...,%)(2.2)特征項在文本的權(quán)重心通過某種權(quán)重計算方法計算而來,心越大,證明該特征項對文本的反映能力越好。向量空間模型將每個文本表示成空間中的一個向量形式,這樣可以通過計算向量間的距離來衡量兩個文本之間的相似度。向量空間模型有效的降低了文本之間相似度計算的復雜性。但卻沒有考慮到特征項語義、所處位置等信息,對文本分類的精度有一定的影響。2.2.2布爾模型布爾模型(BooleanModel)建立在集合論和布爾代數(shù)基礎(chǔ)上,是VSM的一個特例,是最簡單的文本表示模型。主要思想是將文本看成一組特征項集合,用0和1表示特征項的權(quán)重1281。一個文本被表示一個特征向量,如公式2.3所示。d={w1,wz,...,%)(2.3)在布爾模型中,每個維度代表文本的一個特征項,坼表示該特征項的權(quán)重,每個特征項的權(quán)值只能是0或1,若為1則表示特征在該文本中存在,0則表示特征在該文本中不存在。布爾函數(shù)可以表示成公式2.4的形式。wk={:,篇億4,210f。在文本不中出現(xiàn)u—J.8. 萬方數(shù)據(jù)東北大學碩士學位論文第2章情感分類相關(guān)技術(shù)布爾模型的主要優(yōu)點就是文本表示方式簡單,只需要考慮特征項在文本中是否出現(xiàn)。然而,由于特征項的權(quán)重只有O,1兩種表示,缺乏定量的分析,不能夠完全反映出文本和特征項相關(guān)程度的差異性,使得特征在文檔中的重要程度無法衡量。2.3特征選擇方法生成的文本表示模型的向量空間維度很大,有時達到幾萬維甚至幾十萬維。如果將它們作為機器學習算法的輸入數(shù)據(jù),將產(chǎn)生大量冗余信息,不但增加計算的時間,而且會導致無法準確提取文檔類別信息,降低分類準確率。因此,對向量空間進行維度約簡,提高分類器的精度,是十分必要的。這就要用到特征選擇技術(shù),特征選擇在文本處理過程中是非常重要的一個步驟,分類結(jié)果的準確率相當大的程度上依賴于特征選擇的方法。常用的特征選擇方法有:文檔頻率,信息增益,互信息,卡方統(tǒng)計量等【29】。2.3.1文檔頻率文檔頻率(DocumentFrequency,DF)是指在整個文檔集合中,出現(xiàn)某一特征項的文本的數(shù)量占文本總數(shù)的百分比。其計算方法如公式2.5所示。DF(歸蜊鬻囂塑(2.5)文檔頻率反映了該特征在文檔集合中的覆蓋范圍。在應(yīng)用文檔頻率進行特征選擇時,通過設(shè)定閾值吟,吼]來選擇特征。當該特征的DF(t)<19l時,說明該特征是低頻詞,它們不含或含有少量的類別信息,去掉該特征;當該特征的DF(t)>B時,說明該特征對于文本的區(qū)分度不高,也去掉該特征。只選擇DF(t)∈阻,Oz】的特征項作為特征選擇結(jié)果。文檔頻率特征選擇方法形式簡單、計算復雜度低,是最簡單的特征選擇技術(shù)。然而,有時候很多低頻詞語也都包含了表征文本的大量信息,將這些詞去掉會影響分類結(jié)果[301。2.3.2信息增益信息增益(InformationGain,IG)方法以信息論為理論基礎(chǔ),是文本分類中常用的特征選擇方法,在機器學習領(lǐng)域中被廣泛使用【311。信息增益的含義是:含..9.. 萬方數(shù)據(jù)東北大學碩士學位論文第2章情感分類相關(guān)技術(shù)有特征項≠對整個分類的貢獻程度與不含特征項t對整個分類的貢獻程度之差。信息增益值越大,該特征項含有的類別信息越多,越適合做分類特征。特征項f的信息增益計算公式如公式2.6所示。佑(f)=一善P(e)1。g尸(c:)+JP(f)善P(c:If)loge(c,If)+尸(;)善P(crIf)1。g尸(cjl;)f2.61-P(忡(刪。g錯+P(酏)P(嘶)log幫其中,k為文本類別個數(shù);尸(Cf)表示文本屬于類別cf的概率;P(t)表示特征項f在文本中出現(xiàn)的概率;P(C』It)表示含有特征項f的文本中屬于類別G的概率;尸O)表示特征項t在文本中不出現(xiàn)的概率,P(eI,)表示不包含特征項t的文本中屬于類別e的概率。在特征選擇過程中,本文計算每個特征項的信息增益值IG,并設(shè)定一個相關(guān)閾值日,當特征項的IG大于9時,說明該特征項對整個分類的貢獻程度大,保留該特征;否則,將該特征移除。信息增益同時考慮了包含和不包含特征項的文檔為文本分類提供的信息,具有較好的全局特征選擇效果,是最廣泛應(yīng)用于文本特征選擇的算法。本文在情感極性分類中,使用信息增益對文本進行特征選擇。然而,信息增益并沒有考慮特征項在不同類間、同一類內(nèi)的分布情況,下文本文將針對其不足進行改進。2.3.3互信息互信息(MutualInformation,MI)是信息論里一種有用的信息度量,用來描述兩個事件集合之間的相關(guān)性‘32l。在特征選擇過程中可以用來衡量特征項和類別之間的共現(xiàn)關(guān)系。令Ⅳ表示文檔總數(shù),Ⅳ=么+召+C。4、曰、C表示文檔頻數(shù),其具體含義如表2.1所示。表2.1互信息參數(shù)含義Table2.1MeaningofMlparameterst1ABffC一特征項‘與類別q的互信息計算方法如公式2.7所示。.10一 萬方數(shù)據(jù)東北大學碩士學位論文第2章情感分類相關(guān)技術(shù)MI(t,,Cj)=log面而Ax石N面(2.7)特征項對于某類的互信息值越大,特征項與該類別之間的依賴程度越大,那么該特征項就越重要,它被選擇作為文本分類的特征的可能性也就越大。當互信息值塒(‘,C,)=0時,說明特征項與類之間完全獨立。由于低頻詞的互信息較高頻詞的互信息高,因此互信息方法更容易選擇低頻詞作為分類特征。2.3.4卡方統(tǒng)計與互信息類似,卡方統(tǒng)計(CHI)也用來衡量特征項和文本類別之間的關(guān)聯(lián)程度‘331。與互信息方法不同之處在于,和C之間符合具有一階自由度的卡方分布。設(shè)Ⅳ表示文檔總數(shù),N=A+B+C+D。么、B、C、D表示文本的數(shù)量,其具體含義如表2.2。表2.2卡方統(tǒng)計參數(shù)含義!墊!皇蘭:蘭叢呈絲i豎旦蘭竺旦!巳堂壘坐墮旦豎tAB‘CD卡方統(tǒng)計量的計算公式如公式2.8所示。伽(I,q)=酉麗面Nx酉(AD石-B面C)z幣而(2.8)特征項對于某一類別的卡方統(tǒng)計值越高,它與該類的關(guān)聯(lián)程度就越大,所能提供的類別信息也就越多,被選擇作為分類特征的可能性也就越大。當CHI(t,,cj)=0時,特征項與類之間完全獨立??ǚ浇y(tǒng)計是歸一化的統(tǒng)計量,它只考慮了特征項t在文本中是否出現(xiàn),沒有考慮它在文本中出現(xiàn)的次數(shù),導致高頻詞和低頻詞之間的區(qū)別難以區(qū)分。2.4權(quán)重計算方法在對文本進行特征選擇之后,還需要計算各個特征項的對文本的表示程度,即進行特征項的權(quán)重計算。目前,最普遍使用的權(quán)重計算方法是詞頻一逆文檔頻率(TermFrequency-InverseDocumentFrequency,TF—IDF)。 萬方數(shù)據(jù)東北大學碩士學位論文第2章情感分類相關(guān)技術(shù)TF—IDF權(quán)重計算方法的主要思想是:特征項在文本中出現(xiàn)次數(shù)越多,該特征項越重要,它的權(quán)重越大;特征項在越少的文本中出現(xiàn),該特征項越重要,它的權(quán)重越大。TF:詞頻,是指一個文本中某一特征項在該文本中出現(xiàn)的頻率;DF-文檔頻率,是指含有某一特征項的文本占文本總數(shù)的比例;IDF:逆文檔頻率,DF的倒數(shù)形式;TF越大,說明特征項在一篇文本中的出現(xiàn)頻率越高,該特征項能夠較好的表示該文本;DF越小,IDF越大,說明該特征項在其它文本中出現(xiàn)的頻率越小,該特征項對不同文本具有較好的區(qū)分能力。因此,TF.IDF將TF和IDF綜合考慮,利用TF和IDF的乘積作為權(quán)重計算結(jié)果。TF—IDF值越大,權(quán)重越高,該特征項越重要。TF的計算公式如公式2.9所示。丁F:壁塹墮!壟奎壟堂塑塑達塑r29、"V2—i雨葡面蕊不『一u∥J~”文本i特征項總個數(shù)P“7IDF的計算公式如公式2.10所示。IDFj=log二(2.10)刀,其中,胛,為包含特征項‘的文本的個數(shù)。Ⅳ為文本的總數(shù)。TF—IDF的計算公式如公式2.11所示。rFdDF,2覡×,D巧2瑪×log爭叫(2.11)盧是為了避免文檔頻率等于0引入的系數(shù),通常/3=0.5。為了使得特征項的權(quán)重值TF,jIDFj∈【o,1】,對上式2.11進行歸一化處理,那么,特征項t在_中的權(quán)重可以表示為公式2.12形式。rF,JDFj=剛og(苦塒f2.12)TF.IDF算法既考慮特征項的局部分布特性,也考慮了特征項的全局分布特性,是最廣泛使用的權(quán)重計算方法。本文在后面的內(nèi)容中使用TF—IDF計算方法一12. 萬方數(shù)據(jù)東北大學碩士學位論文第2章情感分類相關(guān)技術(shù)對微博文本進行權(quán)重計算,同時針對微博的特點和情感分類的具體應(yīng)用,對TF.IDF方法做相應(yīng)的改進。2.5文本分類算法將訓練集合中的所有文本經(jīng)過特征選擇、權(quán)重計算等步驟表示為特征向量后,就可以訓練分類器,構(gòu)建分類模型,然后利用該分類模型將待測試的文本映射到某一特定類別。本節(jié)介紹文本分類的三個經(jīng)典算法:樸素貝葉斯分類算法、KNN分類算法和SVM分類算法。2.5.1樸素貝葉斯算法貝葉斯(Bayes)學習算法是一種典型的基于統(tǒng)計方法的分類模型,它以貝葉斯定理為基礎(chǔ),結(jié)合觀測數(shù)據(jù)的先驗知識,來評估某樣本最終屬于某一類別的可能性。樸素貝葉斯分類(NaiveBayesClassifier)是最常用的貝葉斯學習算法之一,它通過建立概率生成模型,計算出一個文本屬于每個類別的概率值,選擇概率最大值所在的類別作為該文本的類別標簽,以此實現(xiàn)對文本的分類。樸素貝葉斯分類是一種簡單有效的概率分類方法。樸素貝葉斯分類器的“樸素”是指各屬性之間的條件獨立性假設(shè)【341。所謂條件獨立性假設(shè),是指每一個屬性對給定類的影響?yīng)毩⒂谄渌麑傩浴TO(shè)訓練集文檔總數(shù)為N,類別集合C={Cl,G,...,G),一個文本d用VSM模型可以表示為d={w1,w2,...,%),則d屬于類別c,的條件概率可以表示為公拋.13形式。尸(qd)=—P(d1Ig):孑·廠e(cj)(2.13)(1)尸(C,)表示文檔集合中,屬于類別c,的文檔所占的概率。尸(C,)計算方法如公式2.14。P(q):墅型燮N(2.14)(2)P(d)表示文本d在文檔集合中出現(xiàn)的概率。因為每個文本在集合中出現(xiàn)的概率是相等的,因此尸(力是一個常數(shù)。(3)P(alC,)表示文本d的條件概率,它可以表示為公式2.15形式。.13. 萬方數(shù)據(jù)東北大學碩士學位論文第2章情感分類相關(guān)技術(shù)P(dlCj)=P(Wl,W2,w3,...,WnIq)=lq尸(w1wi,w2,w3,...,wI小q)(2.15)i=1由于樸素貝葉斯分類算法的條件獨立性假設(shè),各個屬性之間是相互獨立的。那么有如下公式2.16和公式2.17成立。P(wjwl,w2,w3,...,w書q)=尸(_lcj)(2.16)P(dlCj)=nP(彬lCj)(2.17)i=1根據(jù)公式2.17,可以將式(2.13)表示成公式2.18形式。I-I尸(wIq)·P(q)尸(C,Id)=尸(d)(2.18)選擇使得公式2.18最大化的類別作為即文本d的類別標簽。由于P(柳是常數(shù),最終的類別C可以由下式2.19判斷:∞argm¨ax以Cf)縣P(wjc,)(2.19)樸素貝葉斯算法的主要優(yōu)勢之一計算速度。由于條件獨立性假設(shè),使得算法的時間復雜度較低。然而,樸素貝葉斯是以條件獨立性假設(shè)為前提,在實際應(yīng)用中,文本屬性之間的依賴關(guān)系是不可能完全避免的,因此,它在準確性方面相對弱于復雜的學習算法。2.5.2K最近鄰分類法K最近鄰分類法,KNN(K-Nearest—Neighborclassifier),是一種經(jīng)典的統(tǒng)計模式識別方法,也是最廣泛使用的分類算法之一。20世紀50年代由Covert和Hart首次引進【35J。該算法的主要思路是當給定一個待分類的數(shù)據(jù)時,計算待分類數(shù)據(jù)與訓練數(shù)據(jù)集合中每個數(shù)據(jù)的距離,找出最接近該數(shù)據(jù)的k個訓練數(shù)據(jù),即所謂的k個“最鄰近”。如果未知數(shù)據(jù)的k個最近鄰數(shù)據(jù)中,大多數(shù)的數(shù)據(jù)都屬于某一類別,那么該數(shù)據(jù)將被指派到該類別。K最近鄰分類法使用基于距離的比較,將文本表示成向量形式,通常用兩個向量之間的余弦距離來衡量鄰近性。文本d,和d,的相似度計算公式為:.14. 萬方數(shù)據(jù)東北大學碩士學位論文第2章情感分類相關(guān)技術(shù)堿歸s92麗dt·dj2赫w,k·wj,㈣其中,sgm(a,,d,)表示文檔Z和d,之間的相似度。N表示特征項個數(shù)。%表KNN算法思路簡單,由于它只跟很少量的相鄰的樣本有關(guān),所以它能夠較好的避免樣本不平衡所帶來的問題。同時,由于KNN算法主要關(guān)注于樣本與樣本之問的距離,這樣減少了特征選擇過程對分類結(jié)果的影響。然而,KNN算法的缺陷在于,每個待分類的樣本都要與訓練集中的所有樣本進行相似度計算之后,才能夠選出k個最近鄰,當訓練樣本的空問較大時。計算量十分龐大,分類速度慢。很難滿足用戶的需求。它在訓練數(shù)據(jù)較小情況下,實驗精度較低,因此不適用于小樣本情況下的分類。2.5.3支持向量機支持向量機(SupportVectorMachine,SVM),由Vapnik等人在1963年提出,它是以統(tǒng)計學理論的VC維理論和結(jié)構(gòu)風險最小原理為基礎(chǔ)的機器學習算法。支持向量機是一種監(jiān)督學習技術(shù),主要用于解決二分類問題,近年來被廣泛應(yīng)用于情感分類。利用SVM解決二元分類問題,其目標就是在訓練樣本中尋求最優(yōu)分類超平面月。所謂最優(yōu)分類超平面,即該分類超平面可以將訓練集中的數(shù)據(jù)分開,同時使兩類數(shù)據(jù)之間的分類間隔最大。設(shè)給定的數(shù)據(jù)集D={(t,舅)},其中蕾為一條訓練數(shù)據(jù),乃是蕾所屬類別標號,y/∈{一l,+1)。SVM最優(yōu)分類超平面可以定義為公式2.21形式。日:wex+b=0f2.21)其中,x是一條訓練數(shù)據(jù),矢量W和常數(shù)b需要通過對訓練數(shù)據(jù)學習得到。如圖2.1所示。圖2.1中,實心圓和空心圓分別代表兩個不同的類另lJ+l和.1,H是最優(yōu)分類超平面。q和馬是平行于H且距日距離最大的兩條直線。落在q和%上的點稱為支持向量,支持向量是最難分類的元組,并且給出最多的分類信息。最優(yōu)分類超平面日只由和離它最近的支持向量機決定。一15. 萬方數(shù)據(jù)東北大學碩士學位論文第2章情感分類相關(guān)技術(shù)141圖2.1SVM分類原理Fig.2.1SVMclassificationprinciple在SVM中,q和呸滿足公式2.22。,.=w.畎i01y/=4-1(2.22)厶‘:W·Xi+b≤一1以=一1、7為使.,H。和皿之間的距離2/ll,q12最大,問題可以轉(zhuǎn)化為尋找合適的向量w和偏移量6,使11w曠/2最小。即:jmin制12(2.23)【sJ.yi(w*t+6)≥O(i=1,2,...n)支持向量機具有扎實的數(shù)學理論基礎(chǔ),核函數(shù)技術(shù)很好的解決了“維數(shù)災難”的問題,使得算法的時間和空間的復雜度與特征空間維度無關(guān)。另外,最優(yōu)分類超平面僅由支持向量決定,若去掉支持向量之外的其他數(shù)據(jù),分類性能不會受到影響。相對于其他分類方法,SVM在解決小樣本、非線性及高維模式識別問題中表現(xiàn)出很多特有的優(yōu)勢。2.6本章小結(jié)本章主要介紹了情感分類的相關(guān)概念及技術(shù),包括:情感分類研究的基本任務(wù),兩個文本的表示模型,四個文本特征的選擇方法、TF—IDF權(quán)重計算方法及三個經(jīng)典的文本分類算法。為下文做了基礎(chǔ)知識的鋪墊。.16. 萬方數(shù)據(jù)東北大學碩士學位論文第3章微博情感極性分類研究對于微博來說,由于大部分的微博都是用戶原創(chuàng),其主觀性很強,因此,本文在微博的情感分類研究過程中,不考慮客觀性文本,只考慮主觀性文本,首先對主觀性微博情感進行極性分類,而后對正負情感進行進一步細粒度分類。本章主要介紹微博的情感極性分類方法,微博的情感細粒度分類方法將在第4章具體討論。情感極性分類,即將情感分類正向情感和負向情感兩個類別,根據(jù)2.1節(jié)的介紹,機器學習近年來被廣泛應(yīng)用于情感的極性分類研究中。基于機器學習的情感分類方法將情感分類視為文本分類問題,根據(jù)句子中所含的上下文特征對其進行正負情感分類,不會受到是否包含情感詞語的影響。相比于基于情感詞典的方法,機器學習在情感二元分類研究中取得了較好的效果,國內(nèi)外已有許多研究表明了機器學習方法的優(yōu)良性z日1匕l(fā)-,【361,因此,本文在情感極性分類過程中采用基于機器學習的方法?;跈C器學習的情感極性分類流程主要分為以下幾個過程:文本噪音處理、中文分詞、特征選擇、特征權(quán)重計算、分類器的訓練和使用,其整體思路如圖3.1所示。測試樣本i數(shù)據(jù)預處理l特征選擇i計算特征權(quán)重l【用訓練結(jié)果對測試集進行分類J圖3.1基于機器學習的微博情感極性分類過程Fig.3.1Weibopolarityclassificationbasedonmachinelearning.17. 萬方數(shù)據(jù)東北大學碩士學位論文笫3章微博情感極性分類研究如圖3.1可以看到,基于機器學習的情感極性分類就是在特征空間上通過機器學習算法構(gòu)造情感分類器,實現(xiàn)文本的情感分類的過程‘371。想要實現(xiàn)基于機器學習的微博情感極性分類,需要主要解決三個問題:一是如何對微博文本進行特征選擇。二是如何對微博文本進行規(guī)范化表示,即特征項權(quán)重計算問題。三是如何將分類算法實現(xiàn)并應(yīng)用于微博的情感極性分類。本章將針對這三個問題做相應(yīng)的研究。本章的組織結(jié)構(gòu)如下:第一節(jié)對微博特點進行分析,第二節(jié)針對微博的特點對其進行數(shù)據(jù)預處理,第三節(jié)分析微博文本特征選擇方法,對傳統(tǒng)的信息增益方法進行了改進,第四節(jié)根據(jù)傳統(tǒng)的TF.IDF權(quán)重計算方法,在其基礎(chǔ)上提出了基于情感信息和位置信息的TF.IDF改進算法,第五節(jié)介紹了基于SVM的微博文本情感分類的流程。3.1微博特點分析微博自問世以來,極大的改變了人們生活,它能夠在短時間內(nèi)匯集大量用戶在某一時間段內(nèi)的情緒狀態(tài)或?qū)δ骋皇录挠^點、看法。微博集成了博客、論壇等傳統(tǒng)社交網(wǎng)絡(luò)的許多優(yōu)點,相較于傳統(tǒng)的文本,微博又有其獨特的形式,可以概括為以下特點:(1)內(nèi)容簡潔性。不同于傳統(tǒng)的博客、論壇等文本,微博的內(nèi)容一般被限制在140字符以內(nèi),根據(jù)訓練語料對微博長度進行統(tǒng)計結(jié)果如圖3.2所示。從圖中可以看到,微博文本長度在0到40個字符的居多,其中,10到20字符的最多。微博平臺要求用戶使用簡潔的語言文字表達自己的情感,篇幅短小精悍,內(nèi)容簡單,表達形式不受限制。圖3.2微博內(nèi)容長度統(tǒng)計Fig.3.2LengthofWeibotext.18. 萬方數(shù)據(jù)東北大學碩士學位論文第3章微博情感極性分類研究(2)風格多樣性。微博的形式和風格不受任何約束,除了傳統(tǒng)的文字信.g#l-,微博用戶可以采用多種表達形式,例如,表情符號、網(wǎng)頁鏈接、圖片、音樂等。微博的絕大部分內(nèi)容都是用戶自己發(fā)表的,其寫作方式相比于傳統(tǒng)的博客自由許多,用戶不需要考慮諸如標題、主題等內(nèi)容,只需用只言片語來記錄自己的所見所聞所想。語法、文字的不規(guī)范性隨處可見,諸如省略主語、網(wǎng)絡(luò)流行語、錯別字等。(3)即時交互性。微博為用戶提供了一個與他人分享的平臺,人們樂于將自己的生活感悟,身邊的奇聞異事等通過文字、圖片、鏈接,即時分享到網(wǎng)絡(luò)中。用戶發(fā)布的內(nèi)容會被即時同步到粉絲的微博里,被粉絲瀏覽到,用戶之間可以隨時通過回復、轉(zhuǎn)發(fā)、評論等來進行互動。用戶可以在一條微博的任意位置通過“@+用戶名”提到其它用戶。在默認條件下微博是對外開放的,允許其他用戶瀏覽轉(zhuǎn)發(fā)評論等操作,用戶也可以設(shè)置權(quán)限對指定人開放。(4)傳播病毒性。由于微博上會有許多“關(guān)注”、“粉絲”關(guān)系,通過關(guān)注與被關(guān)注,結(jié)成了一個龐大的消息傳播網(wǎng)絡(luò)。微博的轉(zhuǎn)發(fā)功能更大大加速了微博信息的傳播,所以微博上的信息傳播的更廣泛,更迅速,一傳百,百傳萬,一條消息能在很短時間內(nèi)大規(guī)模擴散,呈現(xiàn)“病毒式”傳播形式。3.2微博數(shù)據(jù)預處理根據(jù)3.1節(jié)對微搏特點的分析,可以看到,針對微博的數(shù)據(jù)預處理不同于傳統(tǒng)文本,基于中文微博的情感分類給傳統(tǒng)的文本分類和情感分析技術(shù)慧來了巨大的挑戰(zhàn),需要根據(jù)微博的數(shù)據(jù)特點,對傳統(tǒng)的文本數(shù)據(jù)預處理方式進行策略上的調(diào)整。本文對微博的數(shù)據(jù)預處理過程主要包括噪音處理、中文分詞及停用詞處理三個階段。3.2.1噪音處理微博為用戶提供了多元化的表達形式,除了傳統(tǒng)的文字信息之外,一條微博還包含了很多附屬信息,例如以下這條微博:嫡子英雄溺塞部電視劇好高質(zhì)素,好久都沒有看過這么好看這么喜歡的劇集了@⑨_p感覺每一集都像電影一般,有質(zhì)感又觸碰人心固周渝民http:/tl。cnISsgnTqV{0秒辯來自_jl|i狗烹窿涮掩囂摧廣}惑{轉(zhuǎn)發(fā)}姣藏l譯滄圖3.3一條微博例子Fig.3.3AnexampleofWeibo一19— 萬方數(shù)據(jù)東北大學碩士學位論文第3章微博情感極性分類研究根據(jù)上圖可以看到,除了文字外,一條微博中還包括用戶名、URL鏈接,表情符號、圖片、“@”、標簽符號“拌”等。在對微博進行分詞處理之前,需要對獲取的微博文本進行噪音處理,去掉與情感分類無關(guān)的冗余信息。(1)超鏈接在微博的表達過程中會經(jīng)常出現(xiàn),如例子中的http://t.crd8sgnTqv。微博的優(yōu)勢在于即時的共享消息,鏈接內(nèi)容通常是新聞、視頻等客觀事實,以便其它用戶能夠通過鏈接直接瀏覽到相關(guān)內(nèi)容,因此,超鏈接對該條微博的情感貢獻不大。本文在微博的數(shù)據(jù)預處理過程中將過濾掉以http開頭的消息鏈接,更好對數(shù)據(jù)進行清理。(2)獲取到的微博數(shù)據(jù)中往往含有微博ID、發(fā)表日期之類的數(shù)字,這些數(shù)字內(nèi)容只反映了一定的客觀事實,不包含與情感分類相關(guān)信息,所以本文將微博中的數(shù)字過濾掉。(3)在微博文本中,“@+用戶名”可以用來點名某人,引起其關(guān)注?!岸吨黝}{6f”來生成話題。這些標簽符號在微博文本中只是起到輔助作用,對于情感分類研究中沒有實際價值,因此,在文本預處理過程中將其過濾掉。3.2.2中文分詞中文分詞是中文文本預處理過程中非常重要的部分。中文文本與英文文本不同,英文文本以空格作為詞與詞之問的間隔,單獨的詞可以獨立表達一個意思,而中文文本每個句子是連續(xù)數(shù)據(jù)的字序列,每個詞語沒有明顯的標志,正確的進行中文詞語的識別需要運用相關(guān)的分詞技術(shù),將文字序列轉(zhuǎn)化成一系列詞語的集合。目前針對中文分詞的算法有很多,常用的分詞算法有基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法等。針對微博的分詞,除了傳統(tǒng)的文本信息外,還需要考慮如何處理表情符號。獲取來的微博中的表情符號用中括號加文字的形式來表示,例如表情②,對應(yīng)文本為“[悲傷】”。許多研究為了方便分詞過程,大多只是考慮微博中的文字信息,而將表情符號作為噪音忽略掉。然而,用戶使用的表情符號可以更直接、更形象生動的傳達用戶的情感和態(tài)度信息,它們在相當大的程度上反映了用戶的情緒狀態(tài),為情感分類提供了有利幫助【381。許多利用文本內(nèi)容無法確定情感信息,可以通過表情符號判斷。例如句子:“我的,tL,都碎了[傷心】。”在進行中文分詞處理后,“心”和“碎”兩個字被分隔開,無法識別“心碎”的含義,但通過表情符號“『傷心1”可以判斷句子表達的是負向情感。因此,在分詞過程中,本文將表情符號視一20. 萬方數(shù)據(jù)東北大學碩士學位論文第3章微博情感極性分類研究為一個詞語來識別。目前的分詞技術(shù)已經(jīng)很成熟,有許多可靠實用的分詞的系統(tǒng),如斯坦福大學的中文分詞器,哈爾濱工業(yè)大學社會計算與信息檢索研究中心研制的LTP,北京理工大學自然語言研究組的NLPIR漢語分詞系統(tǒng),中國科學院開發(fā)的ICTCLAS開源分詞系統(tǒng)等。本文采用中國科學院開發(fā)的開源分詞系統(tǒng)ICTCLAS2011(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem)分詞系統(tǒng)【39】進行中文分詞,該分詞系統(tǒng)的綜合性能十分突出,性能穩(wěn)定,不僅分詞速度快,而且準確率很高。同時ICTCLAS2011支持用戶自定義詞典并可以人工設(shè)置優(yōu)先級,這為本文進行情感分類提供了方便。我們將本文構(gòu)建的表情符號詞典和網(wǎng)絡(luò)流行語詞典導入ICTCLAS2011,并對這兩項詞典設(shè)置高優(yōu)先級,以便能夠?qū)Ρ砬榉柡途W(wǎng)絡(luò)流行語進行有效分詞。3.2.3去停用詞停用詞是指經(jīng)常出現(xiàn),但對分類有沒有太大實際意義的詞語。它們在句子的結(jié)構(gòu)和語義表達上不可或缺,但對分類提供的有用信息很小,甚至會降低分類的準確率。為了減少冗余信息對于分類效果的影響,在文本預處理過程中應(yīng)該將停用詞過濾掉。在主題分類的數(shù)據(jù)預處理過程中,通常依據(jù)《中文停用詞表》,將對分類沒有區(qū)分能力的詞作為停用詞過濾掉,縮減冗余信息,減少不必要的開銷。對于文本的情感分類,具有感情色彩的詞匯對于分類有重要的作用,而《中文傣用詞表》中有很多詞語都是情感詞匯,因此不能使用傳統(tǒng)的去停用詞所依據(jù)的《中文停用詞表》。在文本情感分類中,通常認為包含情感的詞性有名詞(n)、動詞(v)、形容詞(a)、副詞(d)、嘆詞(e)、代詞(r)六類,因此本文依據(jù)詞性對分詞后的數(shù)據(jù)進行過濾,將不屬于這六類詞性的詞語作為停用詞過濾掉。3.3改進的信息增益特征選擇經(jīng)過微博去噪、分詞和停用詞處理后,接下來要對文本進行特征選擇。特征空間中包含了微博文本集合數(shù)據(jù)處理后的所有詞語,如果將特征空間中所有詞語都作為向量空間模型的特征,特征向量的維數(shù)是非常龐大的。同時,由于微博文本最多不超過140字符,一條微博通常只有十幾個或幾個詞語,這將使得特征向量上大部分維度上的值為0,導致特征向量數(shù)據(jù)稀疏。另外,很多詞語對于情感.21. 萬方數(shù)據(jù)東北大學碩士學位論文第3章微博情感極性分類研究類別的區(qū)分沒有太大意義。因此我們必須對特征空間進行降維,保留能夠準確反映文檔的特征,剔除與分類無關(guān)或作用不大的特征。這就要運用到特征選擇技術(shù)。特征選擇是微博情感分類的關(guān)鍵技術(shù)之一,高辨別力的特征能顯著提高分類的效果。3.3.1信息增益方法的不足第2章2.3節(jié)介紹了一些常用的特征選擇方法,信息增益作為一種有監(jiān)督的特征選擇方法,在大量的研究中呈現(xiàn)出良好的性能。有研究表明【4們,信息增益特征選擇方法是目前文本分類性能最好的特征選擇方法之一。因此,本文選擇信息增益作為微博文本特征選擇方法。然而,本文發(fā)現(xiàn)在實際應(yīng)用中,信息增益存在著一定的不足之處。我們知道,集中出現(xiàn)在某個類中,而在其他類中出現(xiàn)次數(shù)很少的特征項,對分類具有越大的作用;同一類的各個文本中分布越均勻的特征項,對分類具有越大的作用。傳統(tǒng)的信息增益方法只計算了特征與各個類別之間的相關(guān)性,而并沒有考慮特征項在不同類間、同一類內(nèi)的分布情況,然而,特征項在類間和類內(nèi)的分布情況在一定程度上也影響了特征項對文本的表示程度,是特征選擇過程中不應(yīng)該被忽視的因素。3.3.2信息增益方法的改進接下來本文對信息增益方法的不足之處進行改進。本文考慮到特征項在不同類間和同一類內(nèi)的分布情況對特征選擇的影響,引入類間集中度(CR)和類內(nèi)分散度(DR)兩個因子。(1)類間集中度(CR,concentrationratio):用來表征特征項在某一類別的文本集合中的集中程度。特征項越集中于文本集合中的某一類,該特征項所帶有的類別信息越多,表征該類別的能力就越強。本文用特征項在某一類中出現(xiàn)次數(shù)占特征項在整個文本集合中出現(xiàn)次數(shù)的比例來表示特征項t的類間集中度,表示成公式3.1形式。CR(c,m=麗囂‰(3.-)(2)類內(nèi)均勻度(DR,distributedratio):用來表征特征項在某一類別中的分散程度。特征項在某一類別中的分布越均勻,該特征項所帶有的類別信息越多,表征該類別的能力就越強。本文用在某一類中,出現(xiàn)特征t的文本數(shù)量占該類別.2,. 萬方數(shù)據(jù)東北大學碩士學位論文第3章微博情感極性分類研究中總的文本數(shù)量的比例來表示特征項f的類內(nèi)均勻度,表示成公式3.2形式。嘲力=≤籌n2,醐)刪CRDR俐帆肛)log等忡(一tl撇耵)log等(3.3)根據(jù)特征選擇過程,本文提出了改進的信息增益特征選擇算法,具體步驟如算法3.1所示。算法3.1改進的信息增益算法Algorithm3.1Improvedinformationgainmethod對微博文本進行特征選擇文檔集合T特征項集合Features掃描微博t∈r對微博t去噪音處理,中文分詞,去停用詞,得到結(jié)果序列words對于每個word∈words,將word加入特征項集合Features若T掃描完成,執(zhí)行Step5,否則執(zhí)行Step1。掃描Features中的每個特征項根據(jù)公式2.6,公式3.1,公式3.2計算其信息增益IG,類間集中度CR,類內(nèi)平均度DR運用公式3.3計算得出改進后的信息增益值weight。若Features掃描完成,執(zhí)行Step8,否則執(zhí)行Step5將特征項的信息增益值從大到小進行排列,保留Features前N個特征項,返回Features,算法結(jié)柬3.4改進的TF.IDF權(quán)重計算在特征選擇后,為了將一條微搏表示成向量空間模型(VSM)形式,本文還需要對各維的特征進行權(quán)重計算。對于不在微博中出現(xiàn)的特征項,其權(quán)重為0,在微博中出現(xiàn)的特征項,本文需要通過一定的方法計算其權(quán)重。2.4節(jié)介紹的TF—IDF是最常用也是目前效果比較好的權(quán)重計算方法,本節(jié)結(jié)合微博情感分類問題特點,分析傳統(tǒng)的TF.IDF權(quán)重計算方法應(yīng)用于微博的情感分類的不足,并對其做了相應(yīng)的改進。-23...”..i2345678攤樅黜唧腳螄哪腳跚腳螄 萬方數(shù)據(jù)東北大學碩士學位論文第3章微博情感極性分類研究3.4.1TF—IDF方法不足TF—IDF(TermFrequency—InverseDocumentFrequency)是目前效果比較好的權(quán)重計算方法,其主要思想是:如果某個特征項在某個文檔中出現(xiàn)的頻率TF越高,而包含該特征項的文檔在整個語料集合中出現(xiàn)的頻率DF越小,該特征項對該文檔的表征能力越強,應(yīng)該賦予更大的權(quán)重。TF—IDF計算權(quán)重方法綜合考慮了詞頻權(quán)重計算和逆文檔頻率權(quán)重計算的優(yōu)點和不足,因簡單有效而被廣泛采用。但是,在我們要解決的微博文本的情感分類實際應(yīng)用中,TF—IDF算法仍然存在著一定的不足之處。首先,對于微博的情感分類,表征一條微博的特征應(yīng)該是盡可能的反映情感信息的詞語。因此,帶有情感傾向的詞應(yīng)該比不帶有情感傾向的詞具有更大的權(quán)重。然而,傳統(tǒng)的TF.IDF只是采用簡單的詞頻統(tǒng)計來計算特征項的權(quán)重,而并沒有考慮特征項本身所包含的情感信息。因此,若使得TF.IDF更好適用于情感信息的分類,特征項本身的情感信息還需要進一步考慮。其次,特征項在文本中不同位置所起到的作用是不同的,一條微博中不同位置的句子的極性對整條微博的情感影響程度不同。按照中國人常用的表達習慣,一條微博中的首句和尾句對該條微博的情感影響較中間句要大,而傳統(tǒng)的TF—IDF并沒有考慮特征項的在文檔中的位置信息,這是導致微博情感分類效果不佳原因之一。3.4.2TF—IDF方法的改進在分析了傳統(tǒng)的TF.IDF權(quán)重計算方法應(yīng)用于微博的情感分類問題中存在的不足后,我們充分考慮特征項的情感信息和位置信息,從情感信息加權(quán)和位置信息加權(quán)兩方面對TF.IDF進行改進。(1)基于情感信息的TF.IDF改進本文在微博的情感分類研究中,為了彌補傳統(tǒng)的TF—IDF計算方法忽略特征項情感信息的不足,我們考慮將特征項的情感信息引進傳統(tǒng)的TF—IDF計算公式中,使得帶有情感信息的詞語比不帶情感信息的詞語具有更大的權(quán)重,從而提升情感詞語對文本的表征能力。在這里我們所說的情感信息主要包括情感詞和表情符號。對于表情符號,由于其情感極性往往很強烈,我們默認正向表情符號極性為+1,負向表情符號為.1。一24— 萬方數(shù)據(jù)東北大學碩士學位論文第3章微博情感極性分類研究對于情感詞,我們要計算其情感傾向值。本章使用HowNet對詞語的情感傾向進行計算。1)情感詞典的構(gòu)建:目前現(xiàn)有的中文情感詞典不多,本文以HowNet的“中文情感分析用詞語集”為基礎(chǔ),構(gòu)建情感詞典?!吨W(wǎng)》于2007年10月22日對外發(fā)布了m隋感分析用詞語集(beta版)”,可以由http://www.keenage.co州下載得到,HowNet情感詞典中一共含有12個文件,包括“中文情感分析用詞語集”和“英文情感分析用詞語集”各6個,總計17887個詞語。我們使用文獻【411的方法對情感詞詞典進行構(gòu)建。2)基于HowNet詞語情感傾向計算:我們主要采用基于知網(wǎng)的詞語傾向計算方法來進行情感詞傾向計算?;谥W(wǎng)的詞語情感傾向計算是選取一些基準詞,根據(jù)情感詞與基準詞的距離來計算情感詞的情感極性。主要思路是將詞語word與每個正向基準詞(positive)進行相似度計算求和得到正向傾向值,再將word與每個負向基準詞(negative)進行相似度計算求和得到負向傾向值,將正向傾向值和負向傾向值做差,得到word的詞語傾向值。在詞語相似度計算方面,劉群m1等人把兩個詞語之間的相似度問題歸結(jié)到了兩個概念之間的相似度問題,而兩個概念之間的相似度又是由表示兩個詞語的義原之問的相似度計算而來的?!案拍睢笔菍υ~匯的描述,“義原”是用于描述“概念”的最小單元。因此,在基于HowNet的詞語相似度計算方面,主要分為三個計算步驟:Step1:義原相似度計算。概念由義原表示,義原相似度是概念相似度計算的基礎(chǔ)。設(shè)S,和墨分別是兩個不同概念的義原,d表示S和是在義原樹中的距離,a是一個可調(diào)節(jié)參數(shù)。則義原相似度Sim(S,,S)計算公式H2】如公式3.4所示。Sim(S1,&)=÷(3.4)U十“Step2:概念相似度計算:每個概念由一組義原來表示,義原主要分為四個部分:第一獨立義原描述、其他獨立義原描述、關(guān)系義原描述和符號義原描述。我們將兩個概念Cl和C2中四個部分的義原相似度分別表示為Sima(S。,是),所%(S,&),研肌,(S,島),Sim,(Sl,是)。那么兩個概念cI和C2的相似度可以由公式3.5表示[421。4fSim(C,,C2)=∑屈兀S/m,(S,&)(3.5).25— 萬方數(shù)據(jù)東北大學碩士學位論文第3章微博情感極性分類研究其中,/3是可調(diào)節(jié)參數(shù),∑屈=l,Si弼(S1,S2)EliSim4(SI,&)的相似度權(quán)值是遞減的,滿足盧?!荩?2≥/3,≥盧。。Step3:詞語相似度計算:設(shè)wD■由胛個概念墨l,S2,...,墨。表示,word2由m個概念疋。,是:,...,是。表示。那么兩個詞語之間的相似度可以用各個概念相似度的最大值表示,如公式3.6所示。Sim(wordl,w峨)-,max,Sim(C1i,C2,)(3.6)?,I,』一-,”在基準詞的選擇方面,復旦大學的朱嫣嵐H31選擇了40對正負基準詞,實驗結(jié)果準確率高達80%。但由于基準詞的選取只是簡單的根據(jù)詞頻篩選,基準詞中有許多語義相同的詞語,比如:q陜樂”和“歡樂”,“魔鬼”和“惡魔”等;另外有些詞語的情感歸類不夠準確,如“病人”、“事故”屬于中性詞;同時基準詞語的覆蓋面不夠廣泛。本文針對朱嫣嵐選取的40對基準詞語基礎(chǔ)上進行修正,刪除其中語義相同的詞語,并添加部分網(wǎng)絡(luò)流行語中具有強烈的正負情感傾向的詞語。最終整理了50組基準詞表3.1和表3.2所示。表3.1改進的正向基準詞一!壘!!皇三:!墅巳翌堅壘巳竺!熊蘭!竺翌蘭.——50個正向基準詞表3.2改進的負向基準詞!皇!!呈!:三墜巳竺∑呈璺翌曼g型i∑!12盟150個負向基準詞為:根據(jù)詞語相似度計算方法和對基準詞語的選擇,可以得出詞語word的傾向值so(w硎)=去喜跏(w。耐,刪毗)_l歷羔一sim(w。記門egativej)(3.7)其中,Sire(word,positive)和Sim(word,negative)分別表示word和正向基準詞和負向基準詞的相似度。n和m分別表示正向基準詞和負向基準詞的個數(shù)。在.26.。二U。 萬方數(shù)據(jù)東北大學碩士學位論文第3章微博情感極性分類研究本文中,刀=m=50。那么公式3.7可以轉(zhuǎn)換為公式3.8形式?!?word)2擊善跏(wD礎(chǔ)p伽ff毗)一嘉善跏(word,n倒fv巳)(3.8)一般情況下,默認設(shè)置0為閾值,若SO(word)>0,則該詞語是正向情感詞;若SO(word)<0,則該詞語是負向情感詞。的絕對值代表了情感強度的大小。根據(jù)前文的情感詞典和情感詞傾向計算方法,本文對傳統(tǒng)的TF.IDF公式進行了改進,提出了計算公式3.9。巧犯礦(刪=乃犯嘆刪×一聊刪=陬Ⅵ舊柵×腳(聊柵×d聊?吲(3.9)鍘刪妯碥地5)×d洲其中,e|∞‘”耐l表示情感詞的加權(quán)函數(shù)值。SO(word)的取值范圍為[一l,l】。∈J∞‘刪l的取值范圍為【1,P】。函數(shù)圖像如圖3.4所示。一\/圖3.4情感信息加權(quán)函數(shù)圖像Fig.3.4Emotionalinformationweightingfunctiongraph在公式3.9中,I.如(wo耐)l表示wc耐的感情色彩的強度,其具體的取值按如下情況處理:若特征項是表情符號,由于表情符號的情感傾向十分明顯,ISO(word)l=l;若特征項不在情感詞典中,那么特征項不包含任何情感信息,貝tJlSO(word)I=0;若特征項在情感詞典中,則根據(jù)公式3.8計算其情感強度SO(word),從而得到ISO(word)I值。根據(jù)以上分析,我們提出了基于情感信息加權(quán)的TF—IDF改進算法,具體步驟如算法3.2。.27. 萬方數(shù)據(jù)東北大學碩士學位論文第3章微博情感極性分類研究算法3,2基于情感信息加權(quán)的TF.IDF改進算法Algorithm3.2ImprovedTF—IDFalgorithmbaseonemotionalinformation計算微博文本中各個特征項的特征值特征選擇后的特征項集合Features,微博文本t各個特征項的特征值集合weights對微博t去噪音處理,中文分詞,去停用詞,得到結(jié)果序列words,words=wordsnFeatures掃描每一個word∈words如果word∈表情符號,詞語傾向值SO(word)=l;如果word∈情感詞典,利用公式3.1l計算結(jié)果得出詞語傾向值SO(word);否則,SO(word)=O根據(jù)詞語傾向值SO(word),使用改進的TF-IDF公式3.9公式計算word權(quán)值weight若words掃描完成,返回特征項集合words和對應(yīng)權(quán)重集合weights,算法結(jié)束,否則,執(zhí)行Step2算法3.2中,首先對微博文本進行分詞,得到分詞序列。然后,根據(jù)特征項集合和分詞序列抽取該條微博所包含的特征項,遍歷每個特征項,根據(jù)特征項類型計算情感加權(quán)函數(shù)。最后,使用改進的TF.IDF公式計算特征項的權(quán)重。(2)基于位置信息加權(quán)的TF—IDF改進傳統(tǒng)的TF.IDF計算公式?jīng)]有考慮特征項的位置信息對其權(quán)重的影響。本文為了彌補其在微博情感分類領(lǐng)域的不足之處,在算法3.2情感信息加權(quán)的基礎(chǔ)上,進一步考慮將特征項的位置信息引進TF—IDF計算公式中。我們知道,根據(jù)人們的表達習慣,一條微博中的首句和尾旬對該條微博的情感影響大些,中間的句子影響相對較小。據(jù)此,本文引入位置權(quán)重系數(shù),對不同位置的特征項賦予不同的權(quán)重系數(shù)。本文將一條微博分為首句&嘲、中IN句s。礎(chǔ)和尾句‰三個部分,那么一條微博f可以表示為,={%。跏,靠礎(chǔ),&耐)。將不同位置的句子分別賦予不同的位置系數(shù)九。并且滿足:羅九=1,其中,露表示t所在的位置,1表示首句,2表示中間句,3表示尾句。特征項位置的加權(quán)系數(shù)如表33所示。系數(shù)0.4,0.2,0.4由特征項在微博中不同位置的重要性決定,所在位置的重要性越高,該特征項的權(quán)重系數(shù)越大。.28.能入出巾幣節(jié)摯攤鼽秈唧腳跚腳螄 萬方數(shù)據(jù)東北大學碩士學位論文笫3章微博情感極性分類研究表3.3特征項位置系數(shù)Table3.3Postionofwordandweights詞出現(xiàn)的位置位置加權(quán)系數(shù)(”sbe日inS。,舭s利O.40.2O.4根據(jù)以上分析,特征項t在微博歹出現(xiàn)的頻率巧,的計算公式2.9應(yīng)該調(diào)整為公式3.10形式。磁=∑以×啄(3.10)上式中,賜表示t在微博歹的&咖、s。樅和%位置上的出現(xiàn)頻率。由此,在引入了特征項情感信息的公式3.9的基礎(chǔ)上,本文迸一步引入特征項的位置信息,調(diào)整后的計算方法如公式3.11所示。阿,D∥(word)=TFIDF(word)xe·陋‘”刪X=TF(word)x1DF(word)xeIs口(w州1(3.11)=薈3九曝(word)×log贏+0.5m陋似硎根據(jù)前文對特征項位置信息的考慮,本文在算法3.2的基礎(chǔ)上,提出了基于特征項情感信息和位置信息混合的權(quán)重計算算法。首先對微博文本進行數(shù)據(jù)預處理,得到分詞序列。然后,根據(jù)特征項集合Features和分詞序列抽取該條微博包含的特征項,遍歷每個特征項,根據(jù)特征項類型計算情感加權(quán)函數(shù),伺時,根據(jù)該特征項在微博中所處的位置,計算特征項的權(quán)重值TF,最后,使用改進的TF—IDF公式3.11計算特征項的權(quán)重?;谔卣黜椙楦行畔⒑臀恢眯畔⒒旌系腡F.IDF改進算法描述如算法3.3所示。算法3.3基于情感信息和位置信息的TF—IDF改進算法Algorithm3.3ImprovedTF—IDFalgorithmbaseonemotionalandposition.29— 萬方數(shù)據(jù)東北大學碩士學位論文第3章微博情感極性分類研究Step2.-Step3:Step4:Step5-掃描每一個word∈words如果word∈表情符號,詞語傾向值SO(word)=l;如果word∈情感詞典,利用公式3.11計算結(jié)果得出詞語傾向值SO(word);否則,SO(word)=0判斷word出現(xiàn)在微博中出現(xiàn)的位置,根據(jù)公式3.10計算TF值將Step3和Step4結(jié)果代入公式3.1l,使用改進后的TF—IDF公式計算word的權(quán)重weight若words掃描完成,返回特征項集合words和對應(yīng)權(quán)重集合weights,算法結(jié)束,否則,執(zhí)行Step23.5基于SVM的微博情感極性分類本文使用支持向量機(sVM)來對微博進行情感分類,將微博文本分為正向情感和負向情感。之所以選擇SVM作為分類器,主要是基于SVM在文本分類方面的以下幾個明顯優(yōu)勢:(1)適用于高維向量空間。這一點正好滿足文本情感分類的需求。SVM的最終決策函數(shù)只由少數(shù)的支持向量所確定,算法簡單,計算的復雜性取決于支持向量個數(shù),并非向量空間維數(shù),避免了維度過高引起的“維數(shù)災難”。(2)由于有嚴格的統(tǒng)計學習理論保證,應(yīng)用SVM建立的模型具有較好的泛化能力。SVM可以給出所建模型的泛化能力的確定的界,這是目前其它任何學習方法所不具備的?;赟VM的情感分類主要分為文本預處理、特征選擇、特征權(quán)重計算、分類器訓練和使用等步驟。微博樣本主要分為兩個部分,一部分用于訓練,一部分用于測試?;赟VM的情感分類主要分為兩個階段:訓練階段:對訓練文本進行學習生成分類器。首先對訓練微博樣本進行去噪音、分詞、去停用詞等預處理,然后,運用改進的信息增益方法進行特征選擇,運用改進的TF.IDF進行權(quán)重計算,將訓練文本表示成VSM模型,最后,將訓練集中所有文檔生成的向量空間模型輸入SVM算法,進行訓練學習,最終構(gòu)造出分類器。測試階段:利用訓練階段生成的分類器對測試集合中的文本進行情感正負向分類。將待分類微博文本表經(jīng)過預處理、權(quán)重計算等步驟,表示成VSM模型,輸入SVM分類器,對微博情感極性進行預測?;赟VM的微博情感極性分類的流程如圖3.5所示。.30. 萬方數(shù)據(jù)東北大學碩士學位論文第3章微博情感極性分類研究嗓音處理中文分詞Il類間集中度特征項情感值去停廂詞il類內(nèi)均勻度ll特征項位置訓警奎H攀羔H麓瑟H臻篙H向量倦訓練文本H預處理特征選擇(算法3.1)權(quán)重計算(算法313)去停用訶lI類內(nèi)均勻度ll特征項位置中文分詞II類間集中度噪音處理特征項情感值圖3.5基于SVM的情感極性分類流程Fig.3.5PolarityclassificationbasedonSVMs1VM}類器向量化工SVM分類器工分類結(jié)果訓練結(jié)果由于訓練階段和測試階段的流程大體一致,本文以訓練階段為例,基于SVM的微博情感分類的主要步驟如下:(1)對微博文本集合進行數(shù)據(jù)預處理,主要包括噪音處理、中文分詞,將名詞(n)、動詞(v)、形容詞(a)、副詞(d)、嘆詞(e)、代詞(r)六類詞性保留,將不屬于這六類詞性的詞語按照停用詞過濾掉。(2)將數(shù)據(jù)處理后的每個詞語作為候選特征,使用公式2.6計算每個候選特征的信息增益值,使用公式3.1和公式3.2計算候選特征的類間集中度CR和類內(nèi)均勻度DR。最后運用公式3.3得出候選特征的重要性分值。選擇分值最大的前N=1000個候選特征作為特征選擇的結(jié)果。(3)特征選擇后,計算在微博中出現(xiàn)的各個特征項的權(quán)重值。首先根據(jù)特征項的屬性計算特征項的情感值,并結(jié)合特征項的位置信息,使用公式3.11的計算結(jié)果作為特征向量中對應(yīng)特征項的權(quán)重值。對于特征向量中不存在的特征其權(quán)重值為0。(4)將生成的特征向量按照格式輸出到文件,將文件送入SVM分類器中進.31. 萬方數(shù)據(jù)東北大學碩士學位論文第3章微博情感極性分類研究行訓練。本文構(gòu)建的基于支持向量機分類方法,在傳統(tǒng)的特征選擇和權(quán)重計算方法上做了改進。在特征選擇過程中,充分考慮類間集中度和類內(nèi)均勻度對特征選擇的影響;在權(quán)重計算過程中,結(jié)合了特征項的情感信息和位置信息,這樣可以特征選擇的結(jié)果更能簡單有效的表示文本,使得特征的權(quán)重更貼合文本的語義,分類的效果更好。3.6本章小結(jié)本章詳細介紹了微博情感極性分類的數(shù)據(jù)預處理、特征選擇、權(quán)重計算等方法,并結(jié)合微博文本情感分類的問題特殊性,對特征選擇和權(quán)重計算方法進行了改進。在特征選擇過程中,傳統(tǒng)的信息增益方法忽略了特征項在不同類之間、同一類之內(nèi)的分布情況,本文引入類間集中度和類內(nèi)均勻度因子,對信息增益的特征選擇方法進行修正。在權(quán)重計算過程中,結(jié)合微博語言特點,將特征項的情感信息和位置信息引入"IT—IDF權(quán)重計算公式。最后,結(jié)合改進的特征選擇和權(quán)重計算方法,給出了基于SVM的情感正負極性分類流程。.32. 萬方數(shù)據(jù)東北大學碩士學位論文第4章微博情感細粒度分類研究人類的情感非常豐富,復雜多變,情感類別的劃分并沒有統(tǒng)一的標準?,F(xiàn)階段的研究中,大部分的情感分類都是對文本情感進行極性分類,即將情感分為正向情感和負向情感。然而,在情感分類問題上,情感具有很強發(fā)散性,人類的語言豐富多彩,情緒復雜多樣,單純的用正向或負向來描述人類情感,過于籠統(tǒng),不能夠細致的表達人們的情感狀態(tài)。例如,“憤怒”、“傷心”等都屬于負向情感,然而對某個事件的情感態(tài)度是“憤怒”或是“傷心”,其情感存在著一定的差距。因此,在第3章情感極性分類研究的基礎(chǔ)上,還需要對微博情感進一步細粒度劃分。目前,對于情感類別的進一步戈IJ分的研究尚少,其成果也難以得到大家公認。本文第3章研究的基于SVM分類器的情感極性分類方法,在處理二分類問題上效果顯著,但由于SVM主要用于二元分類,基于SVM的多分類效果并不理想,針對SVM的多分類研究研究尚處于起步階段。因此,在進行情感的細粒度分類研究中,本文選擇基于情感詞典的分類方法。然而,現(xiàn)有的多類別情感詞典在詞語覆蓋面上還存在著一定的不足,同時,基于情感詞典的情感多分類效果也不是很理想,需要做進一步深入研究。因此,本章在第3章微博情感極性分類的基礎(chǔ)上,對微博的正向情感和負向情感進一步細粒度情感分類。本章組織結(jié)構(gòu)如下:第一節(jié)對本文所用的多類別情感詞典進行了介紹,并分析現(xiàn)有情感詞典的不足。第二節(jié)針對現(xiàn)有情感詞典的不足,對情感詞典進行了擴展,第三節(jié)利用擴展的情感詞典,提出了微博情感細粒度分類算法,第四節(jié)情感極性分類和情感細粒度分類結(jié)合,給出了基于中文微博的情感分類算法流程。4.1多類別情感詞典的構(gòu)建詞匯的情感色彩很大程度上影響了句子的情感色彩,因此,多類別情感詞典的建設(shè)是情感細粒度分類的基礎(chǔ)性工作,情感詞典建設(shè)的好壞直接影晌文本情感分類的效果[441。然而,目前關(guān)于多類別情感詞典方面的資源不多,現(xiàn)有的情感詞典大多是用于情感的正負極性分類,對情感劃分的研究仍在不斷的進步和發(fā)展中,用于多類別的情感資源寥寥無幾。.33. 萬方數(shù)據(jù)東北大學碩士學位論文第4章微博情感細粒度分類研究大連理工大學信息檢索研究室徐琳宏提供的中文情感詞典,將詞語的情感類別分為樂(happiness)、好(1ike)、驚(surprise)、怒(anger)、哀(sadness)、懼(fear)、惡(disgust)7大類,一共包含27466個情感詞,并根據(jù)情感詞的強度分為1,3,5,7,9共五個級別,9表示強度最大,1表示強度最小。為了方便下文對多類別情感詞典的擴展,我們將這五個情感強度歸一化表示為l,2,3,4,5。多類別情感詞典部分示例如表4.1所示。表4.1多類別情感詞典部分示例Table4.1Examplesofmulti-classemotiondictionary大連理工大學提供的多類別情感詞典支持了多類別情感詞匯的分類,對于人類復雜情感具有較好的識別作用。因此,本文以它作為情感細粒度分類依據(jù),將正向情感分為樂(happiness)、好(1ike)和驚(surprise)三類,將負向情感分為怒(anger)、哀(sadness)、懼(fear)和惡(disgust)四類。然而,現(xiàn)有的中文多類別情感詞在詞語覆蓋面上還不夠廣泛,微博中充斥著大量的網(wǎng)絡(luò)新詞、網(wǎng)絡(luò)流行語和專有名詞等,例如:“廂絲”、“高富帥”等,同時一些詞語隨著時代推進衍變出不同的情感含義。因此.現(xiàn)有的多類別情感詞典..34.. 萬方數(shù)據(jù)東北大學碩士學位論文第4章微博情感細粒度分類研究無法滿足微博的情感細粒度分類研究,這就需要采用一定方法,對現(xiàn)有的多類別情感詞典進行擴展,適應(yīng)微博語料環(huán)境,提高多類別情感詞典的覆蓋范圍。4.2多類別情感詞典的擴展4.2.1候選情感特征的生成由于中文詞匯量龐大,微博語言形式豐富多彩,隨著網(wǎng)絡(luò)新詞、網(wǎng)絡(luò)流行語和專有名詞的不斷衍生,以及詞語在不同領(lǐng)域的不同情感含義,使得僅僅依賴現(xiàn)有的多類別情感詞典無法識別所有微博的情感信息,這就要求對現(xiàn)有的情感詞典進行擴充。如果為所有詞匯人工標注其情感傾向、判斷其情感強度,加入情感詞典,不但耗費巨大的人力資源,也難以保證人工判斷的準確性。為了實現(xiàn)對多類別情感詞典的擴展,本文從微博訓練語料中,通過一定的規(guī)則提取出特征,生成微博候選情感特征集合,對其做進一步的選擇將其加入多類別情感詞典中。根據(jù)微博文本與傳統(tǒng)文本的異同,本文抽取微博訓練語料中以下內(nèi)容作為候選特征:(1)表情符號表情符號的使用是微博語言的一大特色。一條微博中可以包含一個或多個表情符號。近年來,由于表情符號豐富多樣,其使用相對于文字輸入更加簡單方便,表情符號在微博中的使用日益頻繁。新浪微博提供了大量的表情符號供用戶使用,如圖4.1所示。默認浪小花暴走浸畫小恐龍玲兔>圈駕豳愈鑫目圓曾鈉贛灞◇圖4.1新浪微博部分表情符號Fig.4.1PartofSinaWeiboemoticons.35.國@④⑨眵甾數(shù)管~鍺@簟堂鑿@o④⑧@曾②一夠一④⑧^兇器@⑧、④@鏟密一@焉一⑧瀵緲◇國@④②落繁法~@②②夠團@②一@國凸◇⑧④心黲舀陵固⑧囝一蟄毯國一黝一④騙一一露⑧ 萬方數(shù)據(jù)東北大學碩士學位論文第4章微博情感細粒度分類研究可以看到,微博中的表情符號本身就可以視為一個多類別的情感詞典,它們能夠表達樂(happiness)、好(1ike)、怒(anger)、哀(sadness)、懼(fear)、惡(disgust)和驚(surprise)等多種情感,并且情感傾向十分清晰明顯。因此,在對多類別情感詞典擴展過程中,本文需要充分考慮表情符號,將其抽取出來作為候選特征。(2)基于詞匯組合抽取分詞后的詞匯單元為一個詞語,然而,微博表達過程中有許多由多個詞匯組合構(gòu)成的情感短語、專有名詞或網(wǎng)絡(luò)流行語等,例如“高大上”、“白富美”、“不明覺厲”等,如果簡單的提取中文分詞后的每個詞語,會使得大量的短語、流行語無法識別。例如對于微博:“這個牌子的衣服真是高大上”,對該條微博分詞后的結(jié)果為:{這個牌子的衣服真是高大上}。在這里將網(wǎng)絡(luò)流行語“高大上”分成了“高大”和“上”兩個詞語,若將這兩個詞語分別抽取出來,會嚴重影響詞語提取效果。為了有效解決這個問題,本文引入滑動窗口的概念,設(shè)置滑動窗口大小為n,以分詞后詞匯單元作為劃分基準,將詞語本身及其前和后的n個詞語進行組合。由于情感短語大多為兩個詞語的組合,因此,在這里,本文設(shè)n=l。那么可以從以上例子中抽取出如下詞匯組合:{這個,這個牌子,牌子,牌子的,的,的衣服,衣服,衣服真是,真是,真是高大,高大,高大上,上}。這樣,“高大上”能夠被有效的抽取出來。運用此方法可以彌補現(xiàn)有分詞系統(tǒng)無法識別專有名詞、網(wǎng)絡(luò)流行語等不足。(3)標點符號標點符號在句子的情感表達中經(jīng)常被使用,它們也在一定程度上反映了說話人的情緒狀態(tài)。如“?”表達作者的疑問情緒,“!”用來抒發(fā)喜悅、贊美、驚訝、憤怒、哀傷等感情。另外,微博用戶有時會用連續(xù)的標點符號來突出強調(diào)情感。如:“!!!”、“。。?!钡?。這些標點符號本身對于句子情感具有一定的識別作用,是理解和判斷微博情感的重要手段。因此,本文將微博語料中的標點符號進行抽取,作為情感詞典候選特征。根據(jù)以上分析,本文以微博訓練語料為基礎(chǔ),將表情符號、詞語及詞語組合、標點符號作為候選的情感特征抽取出來,具體的候選情感特征的抽取過程如算法4.1描述。.36— 萬方數(shù)據(jù)東北大學碩士學位論文第4章微博情感細粒度分類研究算法4.1微博候選情感特征生成Algorithm4.1GenerationofWeibocandidateemotionalfeature功能:輸出:輸入:Step1:Step2:Step3:Step4-Step5:利用微博訓練語料生成微博候選情感特征候選情感特征集合Features微博訓練集合T掃描微博f∈T如果t中含有標點符號,標點符號加入Features對t進行數(shù)據(jù)預處理,結(jié)果存入words掃描words中每個詞語word,如果是表情符號,將表情符號加入Features:如果不是表情符號,將詞語本身加入Features,將詞語左右滑動窗口n個詞語組合加入Features如果Features掃描完成,算法結(jié)束,返回候選情感特征集合Features。否則,執(zhí)行Step14.2.2情感特征抽取由于中國語言博大精深,表達形式豐富多彩,詞匯量巨大。如果對4.2.1節(jié)生成的候選情感特征全部作為情感特征擴展到多類別情感詞典中,那么會造成情感詞典的規(guī)模十分龐大,同時一些詞語本身并不具備明顯的傾向性,使得情感詞典中的冗余詞匯較多,影響其有效性。因此,需要運用相關(guān)技術(shù),從大量候選詞匯中,剔除情感信息不明顯的特征,只選擇具有明顯情感信息的特征補充進多類別情感詞典。本文根據(jù)傳統(tǒng)的TF—IDF權(quán)重計算思想,提出了一種改進的基于方差的TF.IDF用于對候選特征進行約簡。TF.IDF方法相較于單純詞頻(TF)或文檔頻率(DF),既考慮了特征項在局部的分布特征,也充分考慮了特征項在全局的分布特征。該方法因簡單有效而被廣泛應(yīng)用于文本的特征抽取過程。傳統(tǒng)的TF.IDF方法主要用于計算某一特征項在某一文檔中的權(quán)重,本文將TF.IDF的思想創(chuàng)造性應(yīng)用于計算某一特征項在某一類別文本中的權(quán)重。設(shè)文檔集合為D,D由K個類別的文本組成D={口,砬,...,域)。每個類別的文本個數(shù)用札表示,k∈K,設(shè)文檔總數(shù)為N,Ⅳ=M十M+?+屹,候選情感特征集合T={tl,t2,...,乙)。.37— 萬方數(shù)據(jù)東北大學碩士學位論文第4章微博情感細粒度分類研究改進的TF—IDF具體的含義如下:覡:候選情感特征I在文檔集合包中出現(xiàn)的比例。硯=端?)DE,:候選情感特征t的文檔頻率,砬中出現(xiàn)候選情感特征t的文檔數(shù)占文檔總數(shù)Ⅳ的比例。肼;:候選情感特征t反文檔頻率。刪=logL-”訊,州N父侶,.甄而+05j@2)那么,某一特征項在某一類別中的權(quán)重TF.IDF表示為公式4.3。TFIDFik=覡xIDF,=磁t×log(而葡蒜+o.5)(4.3)根據(jù)公式4.3,可以計算得出情感特征t在第k個類別中所占的權(quán)重。然而,該方法只考慮到情感特征在某一特定類別中的分布情況,并沒有提供情感特征在其他類別中的權(quán)重信息。我們知道,特征項在某一類別中的權(quán)重越大,而在其它類別中所占的權(quán)重越小,它才能夠較好的代表該類別的特征。因此,對于情感細粒度分類,本文希望能夠通過某種方法,衡量某一情感特征在不同的情感類別中的權(quán)重差異性,選擇在不同情感類別中權(quán)重相差大、不穩(wěn)定的情感特征,計算其情感傾向,補充進多類別情感詞典。根據(jù)以上分析,為了計算候選情感特征在不同類別下權(quán)重波動性的大小,本文利用統(tǒng)計學領(lǐng)域中方差(Variance)的概念。在概率論與數(shù)理統(tǒng)計理論中,方差用來度量隨機變量和其數(shù)學期望之間的偏離程度。設(shè)一組數(shù)據(jù)集合為“,恐,...,%),它們的平均值為x,那么它們的方差D(功計算公式如公式4.4所示。∞腳(x2M∽2=專陲薯2蕊2]?)方差用來衡量一個樣本波動的大小,方差越大,樣本波動性越大,樣本就越不穩(wěn)定。根據(jù)方差的思想,我們可以考慮某一特征項在各個類別下權(quán)重的波動,波動越大,說明特征項的在不同類別下的權(quán)重越不穩(wěn)定,越能夠代表某一類別。由此,本文提出了基于方差的TF.IDF改進方法,首先運用TF。IDF計算公式413得出情感特征在各個類別中的權(quán)TF/DF廟。然后將計算得來的ZW_DF,t應(yīng)用于公.38. 萬方數(shù)據(jù)東北大學碩士學位論文第4章微靜睛感細粒度分類研究式4.4,那么有公式4.5成立。。(TFIDF(x,臚I(窆k=ITFIDF,k2-K藏2](4.5)其中,K為情感類別的個數(shù)。TFIDF,為特征項薯在各個類別中權(quán)重的平均值。由公式4.6計算而來?!芓FIDF,kik——J£.oTFIDF盧午(4·6)候選情感特征的方差越大,表示該特征在不同的類別中的權(quán)重波動越大,情感傾向于某一唯一類別的可能性越大。因此,本文可以根據(jù)各個候選情感特征的方差大小,對方差結(jié)果由大到小進行排序。設(shè)定一個特定閾值日,將前0個情感特征作為抽取結(jié)果。4.2.3情感傾向及強度判定4.2.2節(jié)抽取來的情感特征,在將它們擴充進多類別情感詞典之前,還需要判斷它們各自的情感類別及情感強度。首先,需要判斷抽取到的各個情感特征所屬的情感類別。最直觀的方法是采用TF的方法計算特征項在每個類別中的頻率,情感特征在哪個類別中出現(xiàn)的頻率高,就將它歸為哪一個類別。然而,由于語料的不完備性和不平衡性,采用TF方法判斷情感類別效果并不理想。我們采用TF—IDF的方法,根據(jù)公式4.3計算得到TF—IDF值,情感特征在某一類別中的權(quán)重越大,它屬于該情感的可能性也越大。因此,本文采用這樣一種方法判斷情感特征的情感類別:對特征抽取過程中所得到的各個情感特征,計算情感特征在各個類別中的TF.IDF值,對情感特征在各個類別中TF—IDF值進行排序,選擇TF—IDF值最大的作為該情感特征的情感類別。在確定了情感特征所屬的情感類別之后,我們需要進一步判斷情感特征的情感強度。這里,我們采用3.4.2節(jié)介紹的基于HowNet詞語相似度方法,將情感特征分別與該情感類別下的五個級別強度的詞語集合進行相似度計算,選擇相似度最大的作為該情感特征的情感強度。設(shè)word的情感類別為label,label中五個情感強度分別表示為厶,厶,厶,厶,厶,屬于五個級別的詞語個數(shù)分別為Ⅳ1,Ⅳ2,Ⅳ3,Ⅳ4,Ⅳ,。一39— 萬方數(shù)據(jù)東北大學碩士學位論文第4章微博情感細粒度分類研究艦(w。耐,厶)=可1薔N,溉(w。耐,易)(4.7)其中,L,s表示第f個級別強度集合中的第歹個詞語。Sim(word,厶,)由公式3.7計算得出。計算得到word與5個強度詞語集合的相似度,選擇word與之相似度最大情感強度作為該特征項的情感強度,因此,word情感強度可以由公式4.8計算得出。strength(word)=argmaxSire(word,厶)(4.8)i=12,...,5在前文介紹的候選情感特征的生成和情感特征的抽取基礎(chǔ)上,我們提出了基于微博訓練語料的多類別情感詞典擴展算法。從微博的訓練語料中抽取可用的情感特征,計算其情感傾向及情感強度,擴充到現(xiàn)有的多類別情感詞典。多類別情感詞典擴展算法的主要思想是:首先根據(jù)微博訓練語料生成候選情感特征集合(算法4.1),遍歷候選特征集合中的每個候選情感特征,使用基于方差的TF.IDF計算公式4.5計算其權(quán)重波動方差,選取方差最大的前Ⅳ個特征,根據(jù)其在各類別中的TF.IDF,選取最大的類別作為其情感類別,最后使用公式4.8計算其情感強度。最后,將該情感特征加入多類別情感詞典所對應(yīng)類別。基于微博訓練語料的多類別情感詞典擴展算法如算法4.2所示。算法4.2多類別情感詞典擴展Algorithm4.2Expendofmulti-classemotionaldictionary功能:根據(jù)微博訓練語料擴展現(xiàn)有多類別情感詞典輸入:微博訓練語料集合T輸出:情感特征三元組(feature,label,strength)Step1:調(diào)用算法4.1,通過T得到候選特征集合FeaturesStep2:掃描Features中的每一個特征featureStep3:計算feature在K個類別下的TF.IDFStep4:計算K個類別下TF-IDF值的方差。若Features掃描完成,執(zhí)行Step5,否則執(zhí)行Step2。Step5:將Features集合按照方差大小降序排列,保留前N個特征Step6-Step5選擇的N個特征,每個特征選取TF—IDF最大的類別K作為情感類別label,根據(jù)公式4.8計算其情感強度strengthStep7:將N個情感特征以(feature,label,strength)形式擴充進多類別情感詞典DictionaryStep8:返回Dictionary,算法結(jié)束。..40.. 萬方數(shù)據(jù)東北大學碩士學位論文第4章微博情感細粒度分類研究算法4.2中,首先調(diào)用算法4.1對微博語料進行候選情感特征生成,候選情感特征的生成集合保存在集合Features中。從Features集合中的第一個候選情感特征開始向后遍歷,對于每個候選情感特征feature,計算其分別在K個類別的權(quán)重,根據(jù)權(quán)重計算結(jié)果計算方差。在遍歷完Features中的每個feature之后,按照方差大小排序,選取前N個情感特征,在本文中,我們設(shè)N=1000。分別計算N個情感特征類別label,情感強度strength,將其加入多類別情感詞典Dictionary,算法的最后返回Dictionary。將選擇的情感特征擴展到多類別情感詞典后,會有部分情感特征和原多類別情感詞典中的情感特征重復,對此,我們保留原多類別情感詞典對該情感特征的傾向和強度判斷,刪除冗余情感特征。4.3基于情感詞典的情感細粒度分類對多類別情感詞典擴充后,我們接下來研究如何利用多類別情感詞典來計算微博文本的情感值。由于多類別情感詞典對每個情感特征都標注了情感類別和情感強度,因此,對于微博文本的情感值計算,主要思想是對微博中的情感特征,依據(jù)情感詞典中情感詞的類別和強度,統(tǒng)計各個情感的情感分值,選取最大的情感類別作為微博的情感類別。4.3.1副詞對情感特征的影響.茹在情感傾向計算過程中,副詞對情感特征的修飾需要重點考慮。副詞主要包括程度副詞和否定副詞。傳統(tǒng)的針對主題的文本分類,大部分都將副詞作為停用詞來處理。然而,在情感分類研究中,副詞對詞語的情感傾向具有十分重要的意義和影響,被否定副詞修飾的詞語的極性會被改變,被程度副詞的修飾的詞語在情感強度上會發(fā)生強弱的變化。因此,本文構(gòu)建了程度副詞詞表和否定副詞詞表。在這里,本文為不同修飾強度的程度副詞設(shè)置不同的強度級別。表4.2否定副詞詞表Table4.2Negativewordstable強度否定副詞不、沒、無非、否、勿、不曾、未必、沒有、未曾、難以、不能、不要、崩、別、毋庸、不需、不用??一41. 萬方數(shù)據(jù)東北大學碩士學位論文第4章微博情感細粒度分類研究表4.3程度副詞詞表Table4.3Adverbsofdegreetable強度程度詞語2.0最、太、極其、分外、萬分、絕對、尤其、極為、過度、分外、異常、無比、百分之百、強烈1.5很、格外、頗為、著實、特別、愈發(fā)、非常、完全、超級、忒、大為、何等1.2比較、更、相當、挺、蠻、怪、多多少少、進一步、較為、越來越、還O.7稍微、有點兒、略微、輕度、有些、一絲程度副詞對于情感傾向分析的至關(guān)重要,例如,“非常好”的表達程度比“好”要高【3】。不同程度副詞的修飾使得情感詞語在情感傾向程度上發(fā)生了強弱的變化。對于“程度副詞+情感詞”組合模式,本文根據(jù)程度副詞強度級別來對情感詞進行加權(quán)處理。例如,“很喜歡”,由于在like類中情感強度為3,“很”修飾強度為1.5。則“喜歡”的強度增強為1.5*3=4.5。在情感的細粒度分類中,否定副詞對情感特征的修飾,并不能采用極性反轉(zhuǎn)的方法,這是因為本文所劃分的情感類別十分復雜,并不是傳統(tǒng)極性分類中簡單的非正即負的關(guān)系。通過對大量語料研究統(tǒng)計,我們對“否定詞+情感詞”的組合模式僅考慮以下形式,如表4.4。在這里,Neg表示否定副詞,A表示程度副詞,strength表示情感強度,weight表示程度副詞強度。表4.4副詞和情感詞搭配模式T拍le4.4Patternsofadverbsandemotionalwords表4.4中,對于有否定副詞出現(xiàn)的搭配情況,本文僅考慮happiness類和like類的情感詞,將happiness類對應(yīng)于sadness類,like類對應(yīng)于disgust類。而對于其它類別,“否定詞+情感詞”、“否定詞+程度副詞+情感詞”、“程度副詞+否定詞+情感詞”的搭配都不考慮,出現(xiàn)這種情況,將它們忽略掉,認為它們不包含情感信息。主要基于以下原因:.42. 萬方數(shù)據(jù)東北大學碩士學位論文第4章微博情感細粒度分類研究1)happiness類/like類可以轉(zhuǎn)化為sadness類/disgust類,而sadness類/disgust類不能對應(yīng)轉(zhuǎn)化為happiness類/like類,這是因為否定詞+happiness/like可以表達sadness/disgust情感,而否定詞+sadness/disgust卻不一定能夠表達happiness/like的情感。例如:“不高興”可以來用來表達“難過”,而“不難過”卻不能用來表示“高興”。2)anger、sadness、fear、surprise這四類的情感詞情感信息很復雜,并不是簡單的非正即負,無法極性反轉(zhuǎn)為合適的情感。例如“不害怕”,“不太難過”,“不怎么傷感”并不能恰當?shù)霓D(zhuǎn)化為其他情感。因此,遇到這種情況,我們忽略掉該情感組合。綜上兩個原因,本文僅對happiness類和like類的否定詞搭配進行情感轉(zhuǎn)換,而對其他情感類別的否定詞搭配情況,則認為否定詞使得原有情感特征傾向消除,忽略該情感特征。4.3.2微博情感計算接下來本文研究微博情感的計算方法。根據(jù)擴展了的多類別情感詞典,統(tǒng)計一條微博中屬于各類別的情感詞匯出現(xiàn)情況,同時考慮否定詞和程度副詞對情感強度的影響,根據(jù)微博在各類情感的分布,計算得出該條微博在各個情感粒度下的情感分值。本文提出了微博情感細粒度分類算法,算法的主要思想是:對每條微博設(shè)定7個情感分數(shù),分別為happinessScore,likeScore,surpriseScore,a11紫rScore,sadnessScore,fearScore,disgustScore。在微博的情感計算過程中,首先,統(tǒng)計各類情感特征出現(xiàn)情況,同時考慮程度副詞、否定詞和情感特征的搭配模式對情感強度的影響,將情感特征的強度累加進其對應(yīng)的情感分數(shù)中。通過這種方法,可以得到一條微博在各個情感類別上的分布情況。最后選擇情感分數(shù)最大的類別作為該條微博的情感傾向類別?;诙囝悇e情感詞典的微博情感細粒度分類算法流程描述如算法4.3所示。算法4.3基于情感詞典的微博情感細粒度分類Algorithm4.3Weibofine—grainedclassificationbasedonemotionaldictionary功能:利用擴展了的情感詞典判斷微博文本的情感類別輸入:一條微博文本t輸出:情感類別Label..43.. 萬方數(shù)據(jù)東北大學碩士學位論文第4章微博情感細粒度分類研究Step1:Step2:Step3:Step4:Step5:Step6:Step7:Step8-對微博t進行數(shù)據(jù)預處理,預處理結(jié)果存入words掃描下一個詞語word∈words,獲取word的情感類別label和情感強度strength如果word盛情感詞典,執(zhí)行Step2,反之,執(zhí)行Step4判斷word被副詞修飾情況iffword不含副詞搭配)label.Score+=strengmiffword被程度副詞修飾)label.Score+=strength*程度副詞強度iffword被否定詞修飾)執(zhí)行Step5if(word被否定詞+程度副詞修飾)執(zhí)行Step6if(word被程度副詞+否定詞修飾)執(zhí)行Step7判斷word的情感類別labelif(1abel=happiness)label=sadnesslabel.Score+=strengthif(1abel=like)label=disgustlabel.Score+=strengthelse執(zhí)行Step2判斷word的情感類別labelif(1abel=happiness)label=sadnesslabel.Score+=strength*程度副詞強度+0.5if(1abel=like)label=disgustlabel.Score+=strength+程度副詞強度+0.5else執(zhí)行Step2判斷word的情感類別labelif(1abel=happiness)label=sadnesslabel.Score+=strength4程度副詞強度if(1abel=like)label--disgustlabel.Score+=strength*程度副詞強度else執(zhí)行Step2獲取最大的情感分數(shù)所在類別label,算法結(jié)束,返回微博類別Label例如:我覺得《催眠大師》很好看,雖然有點恐怖,但并不生硬,情節(jié)扣人心弦。喜歡【哈哈】Step1:對微博文本進行數(shù)據(jù)預處理分詞后的結(jié)果為:f催眠大師很好看雖然有點恐怖但并不生硬情節(jié)扣人心弦喜歡[哈哈】},Step2:根據(jù)多類別情感詞典,查找情感特征根據(jù)擴展了的情感詞典,我們可以得到:(好看,like,2),(恐怖,fear,3),(扣人心弦,like,4),(喜歡,like,3),(【哈哈】,happiness,4)。其中,“好看”由程度副詞“很”修飾,根據(jù)表4.3,“很”的強調(diào)程度為1.5,因此“好看”的情..44.. 萬方數(shù)據(jù)東北大學碩士學位論文第4章微博情感細粒度分類研究感強度加強1.5倍,則有(好看,like,3)。Step3:統(tǒng)計情感分數(shù)統(tǒng)計各個情感特征屬于各個情感類別的分數(shù)有:happinessScore=4,likeScore=10,angerScore=0,sadnessScore=0,fearScore=3,surpriseScore=O,disgustScore=0。Step4:判斷情感類別以最大情感分數(shù)所在的類別like作為該條微博的情感類別。4.4基于層次的情感細粒度分類基于情感詞典的微博情感細粒度分類方法簡單易行,處理速度快,對于具有明顯情感傾向的文本具有較好的分類效果。然而,基于情感詞典的方法存在著一定的不足:首先該方法無法處理那些不包含情感特征而含有情感色彩的微博文本,例如:“怎么又是她呢?”該句子不包含任何情感特征,但卻明顯表達了說話者對“她”的不滿。如果單純利用情感詞典,無法識別情感信息,將不能識別出微情感,導致判斷錯誤。其次,該方法對于情感態(tài)度模棱兩可、情感分數(shù)值相等的情況缺少合適的分類能力,假設(shè)某條微博情感計算得到的happinessSeore和fearScore值相等,那么該條微博不但細粒度情感無法判斷,甚至它們的情感正負性也無法區(qū)分,這嚴重的影響了分類效果。s.另外,如前文描述,該方法只考慮了happiness類和like類兩個類別的否定副詞和程度副詞搭配情況下的處理方法,而忽略了其它類別的情感詞副詞搭配情況,使得處理結(jié)果非常粗糙。通過以上分析,我們知道,如果單純的利用基于情感詞典的方法直接對微博的情感進行細粒度分類,許多情況將導致微博的情感無法被準確分類,甚至導致正負極性都無法判定的后果。因此,本文提出了基于層次的微博情感細粒度分類,采用分層處理方式,先對微博文本進行情感極性分類,然后對微博文本進行細粒度分類。基于層次的微博情感細粒度分類的整個分類流程分為兩個階段,三個步驟,整體流程如圖4.2所示。..45.. 萬方數(shù)據(jù)東北大學碩士學位論文第4章微博情感細粒度分類研究圖4.2基于層次的微博情感細粒度分類的流程Fig.4.2WeIbofine—grainedemotionclassificationbasedonhierarchical(1)兩個階段:第一階段:微博情感極性分類。該階段對微博進行情感極l生分類,采用第3章介紹的情感極性分類算法,首先對微博文本進行數(shù)據(jù)預處理,經(jīng)過特征選擇、權(quán)重計算等步驟將文本向量化,輸入訓練好的SVM分類器,輸出文本的正負情感分類結(jié)果。..46.. 萬方數(shù)據(jù)東北大學碩士學位論文第4章微博情感細粒度分類研究第二階段:微博情感細粒度分類。該階段對正負情感文本分別進行細粒度分類,將正向情感劃分為樂(happiness)、好(1ike)、驚(surprise)三類,負向文本劃分為怒(anger)、哀(sadness)、懼(fear)、惡(disgust)四類。通過對微博訓練語料統(tǒng)計,我們發(fā)現(xiàn),正向情感的3個類別中,like類所占比重最大,大概占正向情感總數(shù)的60%,負向情感的4個類別中,disgust類所占比重最大,大概占負向情感總數(shù)的40%。因此,考慮到第一階段結(jié)果中不含有情感特征的微博文本的處理,我們按如下規(guī)貝q處理:若微博的極性分類的結(jié)果是正向情感,我們將其劃分為like類;若極性分類的結(jié)果是負向情感,我們將其劃分為disgust類。(2)三個步驟:步驟l:微博情感極性判斷。該階段對微博進行正負情感極性分類,采用第3章基于SVM的分類方法。在此不贅述。步驟2;對正向情感細粒度分類。僅考慮屬于happiness,like和surprise三類的情感特征。若不含l青感特征,將其分類到like;若含情感特征,計算微博在三類情感上的情感分數(shù)(算法4.3),選擇情感分數(shù)最大的情感作為這條微搏的情感類別。步驟3:對負向情感細粒度分類。僅考慮屬于anger,sadness,fear和digust四類的情感特征。若不含情感特征,將其分類到disgust;若含情感特征,計算微博在四類情感上的情感分數(shù)(算法4'3),選擇情感分數(shù)最大的情感作為這條微博的情感類別。(3)算法優(yōu)勢分析基于機器學習的情感分類方法不會受到是否有情感特征的約束,其在處理情感極性分類問題上取得了良好的效果,基于情感詞典的微博情感細粒度分類方法簡單易行,處理速度快,對于具有明顯情感傾向的文本具有較好的分類效果。本文提出的基于層次的微博情感細粒度分類,結(jié)合了機器學習方法和情感詞典方法在情感分類方面的各自優(yōu)勢。將微博情感先極性分類,再細粒度分類,避免了正負向情感分值相等時無法判斷導致的嚴重分類錯誤,同時,使得情感細粒度分類的規(guī)模分為正向三分類和負向四分類兩個問題分而治之,縮小了問題規(guī)模。.47. 萬方數(shù)據(jù)東北大學碩士學位論文第4章微博情感細粒度分類研究4.5本章小結(jié)本章在第3章研究微博情感正負極性分類的基礎(chǔ)上,對正負極性微博情感進行細粒度劃分,研究了微博文本情感的細粒度分類方法。首先利用微博訓練語料,提出了一種基于方差的TF—IDF方法進行情感特征抽取,同時給出了情感特征的情感傾向和情感強度計算方法,實現(xiàn)了對現(xiàn)有的情感詞典進行擴充。利用擴展了的多類別情感詞典,計算微博的細粒度情感值,提出了基于層次的微博情感細粒度分類算法。.48— 萬方數(shù)據(jù)東北大學碩士學位論文第5章實驗5.1實驗基礎(chǔ)5.1.1實驗數(shù)據(jù)來源第5章實驗本文的基礎(chǔ)多類別情感詞典采用4.1節(jié)所介紹的大連理工大學徐琳宏提供的中文情感詞典,實驗數(shù)據(jù)選用NLP&強:CC2013評測任務(wù)所提供的微博隋緒標注語料,數(shù)據(jù)可以由htip://tcci.ccf.org.on/conference/2013/pages/page04tdata.html下載得到。微博隋緒標注語料共包括10000條微博,其中標記了客觀句和happiness、like、surprise、anger、disgust、fear、sadness共7種類別情感。本文人工對該數(shù)據(jù)集去除重復數(shù)據(jù)并剔除客觀句,整理共6000條微博數(shù)據(jù),其數(shù)據(jù)分布如表5.1所示。表5.1實驗數(shù)據(jù)分布情況正向情感負向情感情感類別happmesslikesu/'pliseangerdi跨ustfearsadness文本數(shù)量900條1200條700條1000條600條900條總計2800條3200條5.1.2實驗環(huán)境實驗是在一臺PC機E迸行的,PC機的配置為CPUlmel@)Core(TM3i5CPU,內(nèi)存8GB,硬盤500G,字長64位,操作系統(tǒng)為Windows7,Java語言編寫,軟件開發(fā)平臺Eclipse3.7上開發(fā)。向量的訓練和分類使用wekat45】平臺,并集成了LIBSVM分類器,LIBSVM參數(shù)設(shè)置如表5.2所示。..49.. 萬方數(shù)據(jù)東北大學碩士學位論文第5章實驗表5.2LIBSVM參數(shù)設(shè)置:!壘坐乏:蘭生堡壘墜!巴嬰塑參數(shù)名稱參數(shù)值SVM類型核函數(shù)Cache內(nèi)存懲罰系數(shù)可容忍偏差其他C-SVC(classification)Linear40.01.00.001默認5.1.3實驗結(jié)果評判標準本文采用傳統(tǒng)的準確率,召回率和F值對實驗效果進行評估。本文中其計算公式如下:準確率(Precision):準確率是指被正確分類到某類的文本數(shù)占實際被分類到某類的文本數(shù)的比例。即:。。,.正確分到某類的文本數(shù),...⑤從向量集合中抽取80%作為訓練集合,剩余20*,4作為測試集合。使用weka中的libsvm分類器對向量集進行訓練和分類。5.2.2實驗設(shè)計及結(jié)果分析本文在情感極性分類的實驗中,選擇向量集合中80%數(shù)據(jù)作為訓練集合,20%作為測試集合。以5.1.3節(jié)所介紹的準確率、召回率和F值作為評價指標。為了驗證本文提出的隋感極眭分類方法的有效性,本文采用SVM作為分類器,主要進行了兩個對比實驗。實驗1;采用無特征選擇、傳統(tǒng)的信息增益和本文提出的改進的信息增益分別作為特征選擇方法對微博隋感進行極性分類。①不進行特征選擇+采用SVM分類器②傳統(tǒng)的信息增益特征選擇十SVM分類器③改進的信息增益特征選擇}SVM分類器實驗目的:實驗1的目的是驗證本文提出的改進的信息增益特征選擇方法的有效性。實驗結(jié)果如表5.3所示。表53不同特征選擇方法實驗結(jié)果對比:!墊!曼i:!竺絲趔嬰垡巡墊塵型業(yè)望迪翌箜塑無特征選擇信息增益改進的信息增益三種方法在準確率、召回率和F值三個指標上的變化J隋況如圖5.1所示。.51— 萬方數(shù)據(jù)東北大學碩士學位論文第5章實驗圖5.I不同特征選擇方法準確率、召回率和F值的變化Fig.5.1Changesindifferentfeatureselectionmethodinprecision,recallandFvalues實驗結(jié)論:由實驗l的結(jié)果可以看出,使用改進的信息增益方法進行特征選擇時,情感的極性分類的準確率和召回率都較傳統(tǒng)的信息增益方法略有提高,說明類間集中度和類內(nèi)均勻度兩個因子的引入對信息增益特征選擇方法效果有了一定的提升。實驗2:采用不進行權(quán)重計算、傳統(tǒng)的TF-IDF和本文提出的改進的TF一1DF分別作為權(quán)重計算方法對微博進行隋感極眭分類。①改進的信息增益特征選擇+不進行權(quán)重計算+SVM分類器②改進的信息增益特征選擇十傳統(tǒng)TF-IDF+SVM分類器⑨改進的信息增益特征選擇+改進的TF-IDF+SVM分類器實驗目的:實驗2的目的是驗證本文提出的改進的TF-IDF權(quán)重計算方法的有效性。實驗結(jié)果如表5.4所示。表5.4不同權(quán)重計算方法實驗結(jié)果對比墅曼!!!蘭g竺望塹!竺2£堡翌墮墊查墅型∑蘭堡莖塑曼型!竺i!型巴壁墊鯉無權(quán)重計算傳統(tǒng)TF-IDFTF-IDF三種方法在準確率、召回率和F值三個指標上的變化晦況如圖5.2所示。.52. 萬方數(shù)據(jù)東北大學碩士學位論文第5章實驗88.00%86.00%84.00%82.00%80.00%78.00%76.00%74.00%準確率召回率F值圖5,2不同權(quán)重計算方法準確率、召回率、F值的變化F嘻5.2Changesindifferentweightcalculationmethoditlaccu嗽recall’Fvalue實驗結(jié)論:由實驗2的結(jié)果可以看出,與不進行權(quán)重計算和采用傳統(tǒng)的IT'-IDF權(quán)重計算方法相比,本文在使用改進的TF—DF權(quán)重計算方法進行權(quán)重計算后,情感的極性分類的準確率和召回率方面都有了一定的提高,驗證了本文提出的基于情感信息和位置信息加權(quán)的TF—IDF方法的有效|生。5.3微博情感細粒度分類實驗5.3.1實驗思路本節(jié)實驗主要驗證我們第4章提出的基于微博情感細粒度分類方法的有效性,主要包括對多類別情感詞典的擴展和基于層次的微博情感細粒度分類算法。實驗整體思路如下:①對微博訓練數(shù)據(jù)進行數(shù)據(jù)預處理,利用算法4.1,生成候選隋感特征。②利用算法4.2,對候選|青感特征進行抽取、傾向判斷及強度計算,實現(xiàn)對多類別情感詞典擴展。對多類別情感詞典擴展的準確性進行判斷。③對不同的微博情感細粒度分類方法進行對比。5.3.2實驗設(shè)計及結(jié)果分析本節(jié)實驗主要對第4章提出的多類別情感詞典擴展和微博的情感細粒度分類方法的有效蝴驗證,為此,主要進行了兩個對比實驗。實驗1:采用本文提出方法對候選情感特征進行標注,采用3人人工對候選|青感特征進行標注。①根據(jù)微博訓練語料,實現(xiàn)算法4.1,生成候逛隋感特征。.53. 萬方數(shù)據(jù)東北大學碩士學位論文第5章實驗②對生成的候選隋感特征進行人工標注,標注隋感類別和情感強度。③采用本文提出方法對『青感類另Ⅱ和情感強度進行計算。④以人工標注的結(jié)果②為基準,將③的結(jié)果與②進行對比。實驗1的主要過程如圖5.3所示。圖5.3實驗1過程Fig.5.3Processofexperiment1實驗1的目的是將本文提出的多類別情感詞典的擴展方法與人工標注擴展方法進行對比,驗證本文提出的多類別情感詞典擴展方法的有效性。實驗結(jié)果如表5.5所示。表5.5情感類別及強度判斷實驗結(jié)果對比一一!墊堡!:i魚型避坐墮唑堂堂塑嬰些墨塑監(jiān)型熊竺業(yè)垡型型happksslikesurpriseangerdisgustfearsadness情感特征的傾向及強度判斷的準確率如圖5.4所示。100.00%80.00%60.00%40.00%20.00%O.Oo%l~~一I一一一一-1、~~~一一happiness1ikesurpriseangerdisgustfearsadness圖5.4實驗結(jié)果曲線圖Fig.5.4Experimentalresultsgraph實驗結(jié)論:由表5.5實驗結(jié)果可以看出,本文所采用的方法,在對候選情感特征的情感類別和強度判斷上都取得了較高的準確率。根據(jù)圖5.4,橫坐標表示『青感類別,縱坐標表示準確率,可以看出,對于特征|青感類別的判斷準確率要高于情感強度的判斷。這是因為情感強度的判別依賴于情感類別判別的準確性,同時多類別情感詞典中情感一54— 萬方數(shù)據(jù)東北大學碩士學位論文第5章實驗強度分布不均勻也對實驗結(jié)果有一定的影響。實驗2:采用基于SVM,基于多類別情感詞典,基于SVM和多類別情感詞典三種方法分別對微博進行|青感細粒度分類。①采用基于二分類器SVM的方法對微博進行隋感細粒度分類。②采用基于多類別情感詞典的方法對微博迸行情感細粒度分類。③采用基于層次的方法對微博進行情感細粒度分類。④將①、②和③的實驗結(jié)果進行對比。實驗2的主要過程如圖5.5所示。一I基于svM的l7l情感細粒度分類II微博訓練基于情感詞典的.I舟n厶時。p文本情感細粒度分類7I“““~Il,———、\/’.J基于層次的情感JvI細粒度分類I圖5.5實驗2j螺Fig.5.5Processofexperiment2實驗2的目的是將本文提出的微博情感細粒度分類方法與其它微博情感細粒度分類方法進行對比,驗證本文提出的基于微博|青感細粒度分類方法的有效性。實驗結(jié)果如表5.6所示。表5.6微博隋感細粒度分類實驗結(jié)果對比幫!業(yè)堡i塹g嬰翌趔!墮唑垡塑!墮魚墮蘭趔!!竺墅魚地SVM情感詞典SⅥⅢ情感詞典三個不同的分類方法在準確率、召回率和F值三個指標上的變化f奇況如圖5.6所示。.55— 萬方數(shù)據(jù)東北大學碩士學位論文第5章實驗圖5.6不同分類方法的準確率、召回率、F值變化情況Fig.5.6Ch繃lgesindifferentclassificationmethodhlaccttrate,recall,F(xiàn)value從表5.6和圖5.6的實驗結(jié)果可以看出,相比于基于SVM和基于多類別情感詞典的方法,本文提出的基于層次的微博情感細粒度分類,首先運用SⅥvI對微博情感進行極性分類,然后利用情感詞典進行隋感細粒度分類,分類效果更為理想,。驗證了本文提出的微博情感細粒度分類方法的有效性。從實驗結(jié)果來看,本文提出的方法在微博情感細粒度分類上較傳統(tǒng)的方法有了一定的提高,但準確率、召回率和F值總體還是很低,不足40%,主要有以下原因:1)對于情感的細粒度分類研究正處于起步階段,人類情感復雜多樣,情感的分類不僅僅涉及到文本分類技術(shù),還涉及語言學、心理學等多方面領(lǐng)域。2)中文微博篇幅短小,網(wǎng)絡(luò)用語豐富,語言的隨意性在一定程度上影響了分類效果。3)實驗語料稀缺,部分語料不夠規(guī)范。5.4本章小結(jié)本章主要對前文所提出的微博情感的極性分類方法和情感的細粒度分類方法進行了實驗驗證。首先驗證了本文提出的情感極I生分類方法的有效I生,將本文提出的信息增益方法和權(quán)重計算方法與傳統(tǒng)的方法實驗對比,實驗結(jié)果表明本文提出的改進的信息增益特征選擇方法和改進的TF-IDF權(quán)重計算方法用于SVM分類時具有較好的效果。最后驗證了本文提出的情感細粒度分類方法的有效性,分別使用基于SVM、基于多類另Ⅱ情感詞典和基于層次的三種分類方法進行實驗對比,實驗結(jié)果表明本文提出的基于層次的微博情感細粒度分類方法用于微博的情感細粒度分類具有良好的效果。.56.的如∞加0 萬方數(shù)據(jù)東北大學碩士學位論文第6章總結(jié)與展望6.1論文總結(jié)第6章總結(jié)與展望隨著微博平臺的高速發(fā)展和日益普及,越來越多的人們樂于通過微博平臺來表達自己的傾向、觀點和情感,微博凝聚了大量對社會、政府、個人等有價值的信息,針對微博的情感分析和分類是當今研究的一個熱點課題。本文正是根據(jù)這一個熱點,研究了中文微博的情感分類技術(shù),包括情感的極性分類和情感的細粒度分類。主要工作包括以下幾個方面;(1)改進了情感極性分類的特征選擇算法。考慮到微博的特殊性,傳統(tǒng)的信息增益特征選擇算法并沒有特征項在不同類之間及同一類之內(nèi)的分布情況,因此,本文綜合考慮了這兩個因素,提出了類間集中度和類內(nèi)均勻度兩個因子,對傳統(tǒng)的特征選擇方法進行了改進。(2)改進了情感極性分類的特征權(quán)重計算算法。傳統(tǒng)的TF.IDF特征權(quán)重計算方法沒有考慮特征項的情感信息和位置信息,含有情感的特征項對于文本的情感分類具有更好的代表性,微博的首句和尾句在情感的表達中占有更為重要的位置,因此,本文將特征項的情感信息和位置信息引入TF.IDF計算公式,對傳統(tǒng)的TF.IDF權(quán)重計算方法進行了修正。(3)對現(xiàn)有的多類別情感詞典進行了擴展。本文利用微博訓練語料進行候選情感特征抽取,考慮到特征在不同的情感類別下的權(quán)重波動性,提出了基于方差的TF.IDF進行特征抽取,對抽取來的特征進行情感傾向判斷和強度判斷從而將其補充進多類別情感詞典。實驗證明該方法能夠有效擴充多類別情感詞典。(4)提出了基于層次的微博情感細粒度分類算法。首先對微博文本進行情感的極性分類,然后再對情感進行細粒度分類。該方法在實驗上取得了相對良好的效果。6.2進一步工作實驗證明本文對微博情感的極性分類和細粒度分類的研究取得了一定的效果,卻依然存在著以下不足之處需要進一步研究:(1)對特征選擇和權(quán)重計算算法改進,由于綜合考慮了特征項的多種因素,..57.. 萬方數(shù)據(jù)東北大學碩士學位論文第6章總結(jié)與展望增加了分類所需的時間,相比于傳統(tǒng)的基于機器學習的分類消耗時間要長,因此,需要繼續(xù)優(yōu)化算法,進一步縮短時間。(2)本文只考慮了每條微博本身特性及情感,并沒有考慮到微博的拓撲關(guān)系。如微博的評論、回復、轉(zhuǎn)發(fā)、粉絲等信息,它們在微博情感傾向的判別中同樣起到重要的輔助作用,這是本文在進一步的研究中需要考慮的因素。(3)微博情感的細粒度分類研究正處于起步階段,本文對情感類別的劃分還是比較粗糙,結(jié)合心理學、語言學等領(lǐng)域?qū)η楦蓄悇e進行有效劃分是在接下來工作中需要重點考慮的。.58. 萬方數(shù)據(jù)東北大學碩士學位論文參考文獻1.張建華,梁正友.基于情感詞抽取與LDA特征表示的情感分析方法【J].計算機與現(xiàn)代化,2014,0(5):79.83.2.LiuY’YuX,LiuB,eta1.Sentence—LevelSentimentAnalysisinthePresenceofModalities[M].ComputationalLinguisticsandIntelligentTextProcessing.SpringerBerlinHeidelberg,2014:1—16.3.趙妍妍,秦兵,劉挺.文本情感分析綜述【J】.軟件學報,2010,21(8):1834—1848.4.EsuliA,SebastianiF.Determiningthesemanticorientationoftermsthroughglossclassification[C].Proceedingsofthe14thACMintemationalconferenceonInformationandknowledgemanagement.ACM,2005:617—624.5.WiebeJ.Learningsubjectiveadjectivesfromcorpora[C].ProceeddingsofAAAI.2000:735.740.6。YAOTF.PENGSW.AstudyoftheclassificationapproachforChinesesubjectiveandobjectivetexts[C].ProceedsoftheNCIRCS,2007:117—123.7.PangB,LeeL,VaithyanathanS.Thumbsup?:sentimentclassificationusingmachinelearningtechniques[C].ProceedingsoftheACL-02conferenceonEmpiricalmethodsinnaturallanguageprocessing—Volume10.AssociationforComputationalLinguistics,2002:79—86.8.AgarwalB,MittalN.Optimalfeatureselectionforsentimentanalysis[M].ComputationalLinguisticsandIntelligentTextProcessing.SpringerBerlinHeidelberg,2013:13—24.9.BespalovD,BaiB,QiY,eta1.Sentimentclassificationbasedonsupervisedlatentn-gramanalysis[C].Proceedingsofthe20thACMinternationalconferenceonInformationandknowledgemanagement.ACM,2011:375—382.10.TaboadaM,BrookeJ,TofiloskiM,eta1.Lexicon—basedmethodsforsentimentanalysis[J].Computationallinguistics,201l,37(2):267—307.11.王素格,楊安娜,李德玉.基于漢語情感詞表的句子情感傾向分類研究[J].計算機工程與應(yīng)用,2009,45(24):153—155..59— 萬方數(shù)據(jù)東北大學碩士學位論文參考文獻12。何風英。基于語義理解的中文博文傾向性分析【J】.計算機應(yīng)用,201l,31(08):2130—2】33.13.Quartc,RenF。SentenceemotionanalysisandrecognitionbasedonemotionwordsusingRen—CECps[J].InternationalJournalofAdvancedIntelligence,2010,2(1):105—117.14.KeshtkarF,InkpenD.Ahierarchicalapproachtomoodclassificationinblogs[J].NaturalLanguageEngineering,2012,18(01):61-81.15.李靜,林鴻飛,李瑞敏.基于情感向量空間模型的歌曲情感標簽預測模型【J].中文信息學報,2013,26(6):45-50.16.徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構(gòu)造[J].情報學報,2008,27(2):180一185.17.DavidovD,TsurO,RappoportA.Enhancedsentimentlearningusingtwitterhashtagsandsmileys[C].Proceedingsofthe23rdInternationalConferenceonComputationalLinguistics:Posters.AssociationforComputationalLinguistics,2010:241—249.18.GoA,BhayaniR,HuangL.Twittersentimentclassificationusingdistantsupervision[J].CS224NProjeetReport,Stanford,2009:1-12.19.WangX,WeiF,LiuX,eta1.Topicsentimentanalysisintwitter:agraph—basedhashtagsentimentclassificationapproach[C].Proceedingsofthe20thACMinternationalconferenceOilInformationandknowledgemanagement.ACM,2011:1031.1040.20.SakakiT,OkazakiM,MatsuoYEarthquakeshakesTwitterusers:real-timeeventdetectionbysocialsensors[C].Proceedingsofthe19thintemationalconferenceonW.orldwideweb.ACM,2010:851—860.21.MukherjeeS,BhattacharyyaRFeaturespecificsentimentanalysisforproductreviews[M].ComputationalLinguisticsandIntelligentTextProcessing.SpringerBerlinHeidelberg,2012:475-487.22.謝麗星基于SVM的中文微博情感分析的研究[D】.清華大學,2011.23.王勇,呂學強,姬連春,等.基于極性詞典的中文微博客情感分類[J】.計算機應(yīng)用與軟件,2014,31(1):34.37.24.FeldmanR.Techniquesandapplicationsforsentimentanalysis[J]..60.

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。
大家都在看
近期熱門
關(guān)閉