基于長短時特征融合的語音情感識別方法

基于長短時特征融合的語音情感識別方法

ID:5334562

大小:654.49 KB

頁數(shù):7頁

時間:2017-12-08

基于長短時特征融合的語音情感識別方法_第1頁
基于長短時特征融合的語音情感識別方法_第2頁
基于長短時特征融合的語音情感識別方法_第3頁
基于長短時特征融合的語音情感識別方法_第4頁
基于長短時特征融合的語音情感識別方法_第5頁
資源描述:

《基于長短時特征融合的語音情感識別方法》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、ISSN1000-0054清華大學(xué)學(xué)報(自然科學(xué)版)2008年第48卷第S1期18/27CN11-2223/NJTsinghuaUniv(Sci&Tech),2008,Vol.48,No.S1708-714基于長短時特征融合的語音情感識別方法韓文靜,李海峰,韓紀(jì)慶(哈爾濱工業(yè)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱150001)摘要:情感識別領(lǐng)域中廣泛使用的情感特征有基于語句的全局統(tǒng)計特征和基于語音幀的時序特征。針對這2類基于不同時長的情感特征均不能夠最有效地表達(dá)情感信息的問題,該文提出使用“語段特征”用于識別,并給出了

2、各類情感狀態(tài)對應(yīng)的“最佳識別段長”。為進(jìn)一步提高系統(tǒng)識別性能,該文還構(gòu)建了全局控制Elman神經(jīng)網(wǎng)絡(luò)用于將全局統(tǒng)計特征與基于語段的時序特征相融合。實驗表明:融合長短時特征后的平均系統(tǒng)識別率可達(dá)66.0%,與單獨使用各類特征或語段特征相比分別提高了5.9%和1.7%,同時有效降低了各情感之間的混淆度。關(guān)鍵詞:模式識別;語音情感識別;情感特征;Elman神經(jīng)網(wǎng)絡(luò)中圖分類號:TP391.4文獻(xiàn)標(biāo)識碼:A文章編號:1000-0054(2008)S1-0708-07Speechemotionrecognitionwithc

3、ombinedshortandlongtermfeaturesHANWenjing,LIHaifeng,HANJiqing(SchoolofComputerScienceandTechnology,HarbinInstituteofTechnology,Harbin150001,China)Abstract:Utterance-basedglobalstatisticsandframe-basedtemporalfeatureshavebeenwidelyusedinspeechemotionrecognitio

4、nsystems,butthesefeaturescannoteffectivelydescribealloftheemotionalinformation.Inthisresearch,segment-basedfeaturesareextractedandappliedwithabestsegmentlengthforemotionrecognitionforeachemotionalstate.Furthermore,anovelneuralnetworkmodelnamedGlobalcontrolElm

5、anisproposedtocombinetheutterance-basedfeaturesandsegment-basedfeaturestogether.Experimentsshowthattheperformanceofcombinedfeaturesmayreacharecognitionrateof66.0%,muchhigherthanobtainedbyutterance-basedfeaturesorsegment-basedfeatures.Therecognitionratemaybeim

6、provedby5.9%and1.7%respectively,andtheconfusionbetweenemotionalstateisalsoeffectivelyreduced.Keywords:patternrecognition;speechemotionrecognition;emotionfeature;Elmanneuralnetwork情感計算作為一個新興的研究領(lǐng)域,日益受到組、國內(nèi)的模式識別國家重點實驗室、清華大學(xué)人機(jī)各國研究機(jī)構(gòu)的重視。情感計算的目的在于賦予計語音交互實驗室和中國科學(xué)院語言

7、研究所等都已先算機(jī)擬人的觀察、理解和產(chǎn)生各種情感特征的能力,后展開該方面研究。研究成果不僅可以用于互動式[4][5]使計算機(jī)具有類人的情感智能,最終實現(xiàn)自然、友好電影、遠(yuǎn)程電話客戶服務(wù)中心和情感語音網(wǎng)絡(luò)[1][6]和生動的人機(jī)交互。在人類交流過程中,對他人情通信系統(tǒng),還可以用于輔助語音識別,提高語音識感狀態(tài)的識別是情感智能的核心[2],因此對人類情[7]別的魯棒性等。感狀態(tài)的識別也應(yīng)該是具有情感智能的計算機(jī)所必大量研究表明,語音的情感信息包含在多種聲備的基本功能。語音作為最為人類廣泛使用的交流[3]媒介,不僅包含

8、了豐富的語言和語義信息,同時還收稿日期:2007-09-10攜帶著大量的情感信息。因此,研究讓計算機(jī)具有從基金項目:教育部留學(xué)回國人員科研啟動基金資助項目語音信號中自動識別話者情感狀態(tài)的能力,是情感(20050213032)識別的一個重要組成部分。目前眾多的國內(nèi)外研究作者簡介:韓文靜(1983—),女(漢),河南,博士研究生。機(jī)構(gòu),例如:MIT的AffectiveComp

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。