資源描述:
《基于語音信號的情感特征選擇與情感識別研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、上海交通大學(xué)碩士學(xué)位論文基于語音信號的情感特征選擇與情感識別研究姓名:喬冠楠申請學(xué)位級別:碩士專業(yè):信號與信息處理指導(dǎo)教師:周軍20090101上海交通大學(xué)碩士學(xué)位論文摘要基于語音信號的情感特征選擇與情感識別研究摘要語音是人類交流的重要手段,語音信號在傳達(dá)語義信息的同時(shí),還傳遞著情感信息,而情感在人們生活和交流中起著重要的作用。隨著人機(jī)交互技術(shù)的發(fā)展,語音信號中的情感信息越來越受到研究人員的重視。作為語音信號情感信息處理的一個重要研究方向,語音情感識別是計(jì)算機(jī)理解人類情感的關(guān)鍵,是實(shí)現(xiàn)智能化人機(jī)交互的前提。本
2、文以日常生活中常見的六種情感狀態(tài):生氣、高興、驚奇、悲傷、恐懼和正常為例,對語音信號的情感特征選擇和情感識別進(jìn)行了研究,主要內(nèi)容和成果如下:本文設(shè)計(jì)提取了時(shí)長、語速、能量、基音頻率、共振峰、TEO能量算子、Mel頻率倒譜系數(shù)等聲學(xué)參數(shù)和聽覺參數(shù),并提取了這些參數(shù)的衍生參數(shù)如均值、方差、一階導(dǎo)數(shù)等。同時(shí)在這些常規(guī)特征參數(shù)基礎(chǔ)上,本文提出了一些優(yōu)化的特征參數(shù),如25OHz以下的能量占全部能量的比重,ΔMFCC等。通過對這些參數(shù)的優(yōu)缺點(diǎn)進(jìn)行分析比較,本文選取了一組情感區(qū)分力相對大的特征參數(shù)進(jìn)行識別。以選擇較少的但區(qū)
3、分性較高的情感特征參數(shù)為目標(biāo),對于聲學(xué)特征參數(shù),本文提出了以基于最大差別離心度和最小同類離心度的差別因子作為選擇特征參數(shù)的方法,為每種情感選取了最有效的識別特征參數(shù)。作為情感識別的基礎(chǔ),基于真實(shí)性、交互性、豐富性、連續(xù)性的原則,本文建立了情感語音數(shù)據(jù)庫。本文建立的語音庫采用兩種數(shù)據(jù)來源,一種是選用特定實(shí)驗(yàn)者進(jìn)行錄音獲得數(shù)據(jù),另一種是通過截取特定表演藝術(shù)家在電影、電視劇中富有情感的臺詞得到語音數(shù)據(jù)。第I頁上海交通大學(xué)碩士學(xué)位論文摘要本文設(shè)計(jì)了全局特征參數(shù)和動態(tài)特征參數(shù)結(jié)合的識別系統(tǒng),分別利用人工神經(jīng)網(wǎng)絡(luò)模型和隱
4、馬爾科夫模型進(jìn)行識別,最后通過判別函數(shù)輸出。對于全局特征參數(shù),基于已提出的基于差別因子的特征參數(shù)選擇方法,本文設(shè)計(jì)了一種交叉網(wǎng)絡(luò)識別系統(tǒng)(CNRS),為每兩種情感建立一個識別子網(wǎng)絡(luò)進(jìn)行識別,每個子網(wǎng)絡(luò)的輸入是基于該網(wǎng)絡(luò)的兩種情感選取的最優(yōu)特征參數(shù),整個交叉網(wǎng)絡(luò)識別系統(tǒng)的輸出通過判決器得到最后識別結(jié)果。實(shí)驗(yàn)結(jié)果表明,與經(jīng)典的ACON,OCON和DRNN模型相比,CNRS識別率獲得很大的提高。對于動態(tài)特征參數(shù),本文研究使用了連續(xù)的隱馬爾科夫(CHMM)模型,對提取的聽覺參數(shù)以及聲學(xué)參數(shù)與聽覺參數(shù)的結(jié)合建立CHMM
5、模型進(jìn)行識別,比較了不同參數(shù)的識別結(jié)果。最終的識別系統(tǒng)由判別函數(shù)判別輸出,實(shí)驗(yàn)結(jié)果表明,系統(tǒng)的識別性能得到了提高。關(guān)鍵詞:情感識別,語音特征參數(shù),交叉神經(jīng)網(wǎng)絡(luò),隱馬爾科夫模型第II頁上海交通大學(xué)碩士學(xué)位論文ABSTRACTRESEARCHONSPEECH-EMOTIONFEATURESSELECTIONANDEMOTIONRECOGNITIONABSTRACTSpeechisoneofthemostconvenientmeansofcommunicationbetweenpeoples.Anditconvey
6、semotioninformationaccordingwithitssemanticinformation.Asemotionplaysanimportantroleincommunication,emotionanalysisofspeechhasgainedincreasingattentionduringthelastfewyears.Beingoneofthemostimportantbranchesofemotionanalysisofspeech,emotionrecognitionisfoun
7、dationoftheimplementationofintelligenthuman-machinecommunication.Thispaperstudiedsixkindsofemotionsindailylife:anger,happiness,surprise,sadness,fearandneutral.Theinnovativepointsandmaincontributionsinthispaperareasfollows.Thispaperextractedduration,speed,en
8、ergy,pitch,formants,TEOenergyoperator,otheracousticfeatures,MFCC(Mel-FrequencyCesptralCoefficient),andtheirderivativesfeature(suchasmean,variance,derivativeandsoon).Andbasedonthisconventionalfeatures,t