基于長短時(shí)特征融合的語音情感識(shí)別方法

基于長短時(shí)特征融合的語音情感識(shí)別方法

ID:5334562

大?。?54.49 KB

頁數(shù):7頁

時(shí)間:2017-12-08

基于長短時(shí)特征融合的語音情感識(shí)別方法_第1頁
基于長短時(shí)特征融合的語音情感識(shí)別方法_第2頁
基于長短時(shí)特征融合的語音情感識(shí)別方法_第3頁
基于長短時(shí)特征融合的語音情感識(shí)別方法_第4頁
基于長短時(shí)特征融合的語音情感識(shí)別方法_第5頁
資源描述:

《基于長短時(shí)特征融合的語音情感識(shí)別方法》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫

1、ISSN1000-0054清華大學(xué)學(xué)報(bào)(自然科學(xué)版)2008年第48卷第S1期18/27CN11-2223/NJTsinghuaUniv(Sci&Tech),2008,Vol.48,No.S1708-714基于長短時(shí)特征融合的語音情感識(shí)別方法韓文靜,李海峰,韓紀(jì)慶(哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱150001)摘要:情感識(shí)別領(lǐng)域中廣泛使用的情感特征有基于語句的全局統(tǒng)計(jì)特征和基于語音幀的時(shí)序特征。針對(duì)這2類基于不同時(shí)長的情感特征均不能夠最有效地表達(dá)情感信息的問題,該文提出使用“語段特征”用于識(shí)別,并給出了

2、各類情感狀態(tài)對(duì)應(yīng)的“最佳識(shí)別段長”。為進(jìn)一步提高系統(tǒng)識(shí)別性能,該文還構(gòu)建了全局控制Elman神經(jīng)網(wǎng)絡(luò)用于將全局統(tǒng)計(jì)特征與基于語段的時(shí)序特征相融合。實(shí)驗(yàn)表明:融合長短時(shí)特征后的平均系統(tǒng)識(shí)別率可達(dá)66.0%,與單獨(dú)使用各類特征或語段特征相比分別提高了5.9%和1.7%,同時(shí)有效降低了各情感之間的混淆度。關(guān)鍵詞:模式識(shí)別;語音情感識(shí)別;情感特征;Elman神經(jīng)網(wǎng)絡(luò)中圖分類號(hào):TP391.4文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1000-0054(2008)S1-0708-07Speechemotionrecognitionwithc

3、ombinedshortandlongtermfeaturesHANWenjing,LIHaifeng,HANJiqing(SchoolofComputerScienceandTechnology,HarbinInstituteofTechnology,Harbin150001,China)Abstract:Utterance-basedglobalstatisticsandframe-basedtemporalfeatureshavebeenwidelyusedinspeechemotionrecognitio

4、nsystems,butthesefeaturescannoteffectivelydescribealloftheemotionalinformation.Inthisresearch,segment-basedfeaturesareextractedandappliedwithabestsegmentlengthforemotionrecognitionforeachemotionalstate.Furthermore,anovelneuralnetworkmodelnamedGlobalcontrolElm

5、anisproposedtocombinetheutterance-basedfeaturesandsegment-basedfeaturestogether.Experimentsshowthattheperformanceofcombinedfeaturesmayreacharecognitionrateof66.0%,muchhigherthanobtainedbyutterance-basedfeaturesorsegment-basedfeatures.Therecognitionratemaybeim

6、provedby5.9%and1.7%respectively,andtheconfusionbetweenemotionalstateisalsoeffectivelyreduced.Keywords:patternrecognition;speechemotionrecognition;emotionfeature;Elmanneuralnetwork情感計(jì)算作為一個(gè)新興的研究領(lǐng)域,日益受到組、國內(nèi)的模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室、清華大學(xué)人機(jī)各國研究機(jī)構(gòu)的重視。情感計(jì)算的目的在于賦予計(jì)語音交互實(shí)驗(yàn)室和中國科學(xué)院語言

7、研究所等都已先算機(jī)擬人的觀察、理解和產(chǎn)生各種情感特征的能力,后展開該方面研究。研究成果不僅可以用于互動(dòng)式[4][5]使計(jì)算機(jī)具有類人的情感智能,最終實(shí)現(xiàn)自然、友好電影、遠(yuǎn)程電話客戶服務(wù)中心和情感語音網(wǎng)絡(luò)[1][6]和生動(dòng)的人機(jī)交互。在人類交流過程中,對(duì)他人情通信系統(tǒng),還可以用于輔助語音識(shí)別,提高語音識(shí)感狀態(tài)的識(shí)別是情感智能的核心[2],因此對(duì)人類情[7]別的魯棒性等。感狀態(tài)的識(shí)別也應(yīng)該是具有情感智能的計(jì)算機(jī)所必大量研究表明,語音的情感信息包含在多種聲備的基本功能。語音作為最為人類廣泛使用的交流[3]媒介,不僅包含

8、了豐富的語言和語義信息,同時(shí)還收稿日期:2007-09-10攜帶著大量的情感信息。因此,研究讓計(jì)算機(jī)具有從基金項(xiàng)目:教育部留學(xué)回國人員科研啟動(dòng)基金資助項(xiàng)目語音信號(hào)中自動(dòng)識(shí)別話者情感狀態(tài)的能力,是情感(20050213032)識(shí)別的一個(gè)重要組成部分。目前眾多的國內(nèi)外研究作者簡介:韓文靜(1983—),女(漢),河南,博士研究生。機(jī)構(gòu),例如:MIT的AffectiveComp

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。