資源描述:
《中文短文本情感分類方法的研究與實現(xiàn)》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、H?。椋拢龋兄袊诸愄枺海裕校常梗保夶垼汗_^^?。眨模?;004.4碼:100的fl^^p皆^ft為?^凈HEBEIUNIV巨民SITYOFSCIENC巨ANDTECHNOLOGY"'‘',片.中文短文本情感分類方法的研究與實現(xiàn)論文作者:楊鵬飛指導(dǎo)教師:張冬委教授企業(yè)指導(dǎo)教師:了保忠髙級工程師申請學(xué)位類別:工程碩±學(xué)科、領(lǐng)域:計算機(jī)技術(shù)、所在單位:信息科學(xué)與工程學(xué)院答辯日期:2016年12月—'——-.^河北科技大學(xué)學(xué)位論文原創(chuàng)性聲明本人鄭重聲明:所呈交的
2、學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下,姬立進(jìn)行研究工作所取得的成果。對本文的研究做出重要貢獻(xiàn)的個人和集體,均已在文中W明確方式標(biāo)明。除文中已經(jīng)注明引用的內(nèi)容外,本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的作品或成果。本人完全意識到本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作者簽名;指導(dǎo)教師簽名:^"P日年八月2乂年/么月1口日《河北科技大學(xué)學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,同意學(xué)校保留并向國家有關(guān)部口或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán)河化科技大學(xué)可W將本學(xué)位論文的全部或
3、部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可1^采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。□保密,在_年解密后適用本授權(quán)書。本學(xué)位論文屬于保密""。(請在上方框內(nèi)打V)一學(xué)位論文作者簽名指導(dǎo)教師簽名;報巧屋年/心月]/t?日年f^^月以日ClassifiedIndex:TP391SecrecyRate:PublicizedUDC:004.4UniversityCode:10082HebeiUniversityofScienceandTechnologyDissertationfortheMasterDegreeResearchand
4、ImplementationofChineseShortTextSentimentClassificationMethodCandidate:YangPengfeiSupervisor:ProfZhangDongwenEnterpriseSupervisor:SeniorEngineerDingBaozhongAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerTechnologyEmployer:SchoolofInformationScience&EngineeringDateofOralExa
5、mination:December,2016摘要摘要隨著當(dāng)前的互聯(lián)網(wǎng)產(chǎn)業(yè)飛速發(fā)展,各種網(wǎng)絡(luò)應(yīng)用如微博、電子商務(wù)、論壇、博客應(yīng)運(yùn)而生。伴隨著這些應(yīng)用而來的是海量的網(wǎng)絡(luò)文本數(shù)據(jù)。這些數(shù)據(jù)中所蘊(yùn)含的觀點信息不僅對網(wǎng)絡(luò)應(yīng)用有豐富的價值,而且對用戶來說也是很重要的。為了從海量文本數(shù)據(jù)中提取出有效的觀點信息,情感分類這個研究領(lǐng)域應(yīng)運(yùn)而生。本文使用有監(jiān)督的機(jī)器學(xué)習(xí)方法,對中文短文本進(jìn)行情感分類方法進(jìn)行了研究和實現(xiàn)?;跈C(jī)器學(xué)習(xí)方法本文使用了三種開源的工具,分別用于訓(xùn)練詞向量,挖掘詞語之間的淺層語義;提取語句結(jié)構(gòu)特征中的核心詞位置;進(jìn)行情感分類和情感極性預(yù)測。本文的主要研究內(nèi)容如下:1
6、)為了更近一步的提高分類的準(zhǔn)確性,利用word2vec這一詞向量工具,將海量文本數(shù)據(jù)轉(zhuǎn)化為高維度空間中的向量值,通過向量之間的余弦值,獲取詞語之間語義的相近程度。通過實驗可以驗證,這種方法可以很好地提取出近義相似特征,將近義相似特征擴(kuò)充到情感特征詞典后,為后續(xù)的情感特征提取提供支持。2)給出了基于句式結(jié)構(gòu)的情感分類方法。通過分析網(wǎng)絡(luò)文本中的的正負(fù)情感語句,可以發(fā)現(xiàn)語句都是有一定結(jié)構(gòu)特征的。在句式結(jié)構(gòu)一定的情況下,配合相應(yīng)的情感詞,就可以確定短文本的情感類型。本文使用情感特征詞庫以及特定的句式結(jié)構(gòu)詞作為情感特征,將情感特征輸入到libsvm做分類。通過實驗可以驗證,這種方
7、法有著很好的分類效果。3)基于語義的情感分類,本文使用兩種方式來進(jìn)行。一種是進(jìn)行回歸預(yù)測,也就是進(jìn)行情感極性值預(yù)測。另一種是進(jìn)行情感二分類,在進(jìn)行分類之前使用PCA方法對情感特征進(jìn)行了降維處理。通過實驗可發(fā)現(xiàn),本文基于語義方法的情感分類有著很好的效果。4)利用基于語義情感分類方法,對微博語料進(jìn)行情感分類,將分析結(jié)果應(yīng)用到輿情分析領(lǐng)域,開發(fā)實現(xiàn)了微博輿情分析系統(tǒng)。關(guān)鍵詞情感極性預(yù)測;情感分類;word2vec;CRFs;Libsvm;特征降維;句式結(jié)構(gòu)特征IAbstractAbstractWiththefast-growingdevelop