資源描述:
《基于長短時特征融合的語音情感識別方法》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、ISSN1000-0054清華大學(xué)學(xué)報(自然科學(xué)版)2008年第48卷第S1期18/27CN11-2223/NJTsinghuaUniv(Sci&Tech),2008,Vol.48,No.S1708-714基于長短時特征融合的語音情感識別方法韓文靜,李海峰,韓紀(jì)慶(哈爾濱工業(yè)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱150001)摘要:情感識別領(lǐng)域中廣泛使用的情感特征有基于語句的全局統(tǒng)計特征和基于語音幀的時序特征。針對這2類基于不同時長的情感特征均不能夠最有效地表達(dá)情感信息的問題,該文提出使用“語段特征”用于識別,并給出了
2、各類情感狀態(tài)對應(yīng)的“最佳識別段長”。為進(jìn)一步提高系統(tǒng)識別性能,該文還構(gòu)建了全局控制Elman神經(jīng)網(wǎng)絡(luò)用于將全局統(tǒng)計特征與基于語段的時序特征相融合。實驗表明:融合長短時特征后的平均系統(tǒng)識別率可達(dá)66.0%,與單獨使用各類特征或語段特征相比分別提高了5.9%和1.7%,同時有效降低了各情感之間的混淆度。關(guān)鍵詞:模式識別;語音情感識別;情感特征;Elman神經(jīng)網(wǎng)絡(luò)中圖分類號:TP391.4文獻(xiàn)標(biāo)識碼:A文章編號:1000-0054(2008)S1-0708-07Speechemotionrecognitionwithc
3、ombinedshortandlongtermfeaturesHANWenjing,LIHaifeng,HANJiqing(SchoolofComputerScienceandTechnology,HarbinInstituteofTechnology,Harbin150001,China)Abstract:Utterance-basedglobalstatisticsandframe-basedtemporalfeatureshavebeenwidelyusedinspeechemotionrecognitio
4、nsystems,butthesefeaturescannoteffectivelydescribealloftheemotionalinformation.Inthisresearch,segment-basedfeaturesareextractedandappliedwithabestsegmentlengthforemotionrecognitionforeachemotionalstate.Furthermore,anovelneuralnetworkmodelnamedGlobalcontrolElm
5、anisproposedtocombinetheutterance-basedfeaturesandsegment-basedfeaturestogether.Experimentsshowthattheperformanceofcombinedfeaturesmayreacharecognitionrateof66.0%,muchhigherthanobtainedbyutterance-basedfeaturesorsegment-basedfeatures.Therecognitionratemaybeim
6、provedby5.9%and1.7%respectively,andtheconfusionbetweenemotionalstateisalsoeffectivelyreduced.Keywords:patternrecognition;speechemotionrecognition;emotionfeature;Elmanneuralnetwork情感計算作為一個新興的研究領(lǐng)域,日益受到組、國內(nèi)的模式識別國家重點實驗室、清華大學(xué)人機(jī)各國研究機(jī)構(gòu)的重視。情感計算的目的在于賦予計語音交互實驗室和中國科學(xué)院語言
7、研究所等都已先算機(jī)擬人的觀察、理解和產(chǎn)生各種情感特征的能力,后展開該方面研究。研究成果不僅可以用于互動式[4][5]使計算機(jī)具有類人的情感智能,最終實現(xiàn)自然、友好電影、遠(yuǎn)程電話客戶服務(wù)中心和情感語音網(wǎng)絡(luò)[1][6]和生動的人機(jī)交互。在人類交流過程中,對他人情通信系統(tǒng),還可以用于輔助語音識別,提高語音識感狀態(tài)的識別是情感智能的核心[2],因此對人類情[7]別的魯棒性等。感狀態(tài)的識別也應(yīng)該是具有情感智能的計算機(jī)所必大量研究表明,語音的情感信息包含在多種聲備的基本功能。語音作為最為人類廣泛使用的交流[3]媒介,不僅包含
8、了豐富的語言和語義信息,同時還收稿日期:2007-09-10攜帶著大量的情感信息。因此,研究讓計算機(jī)具有從基金項目:教育部留學(xué)回國人員科研啟動基金資助項目語音信號中自動識別話者情感狀態(tài)的能力,是情感(20050213032)識別的一個重要組成部分。目前眾多的國內(nèi)外研究作者簡介:韓文靜(1983—),女(漢),河南,博士研究生。機(jī)構(gòu),例如:MIT的AffectiveComp