基于短時和長時特征的語音情感識別研究

基于短時和長時特征的語音情感識別研究

ID:16190980

大?。?34.00 KB

頁數(shù):5頁

時間:2018-08-08

基于短時和長時特征的語音情感識別研究_第1頁
基于短時和長時特征的語音情感識別研究_第2頁
基于短時和長時特征的語音情感識別研究_第3頁
基于短時和長時特征的語音情感識別研究_第4頁
基于短時和長時特征的語音情感識別研究_第5頁
資源描述:

《基于短時和長時特征的語音情感識別研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、基于短時和長時特征的語音情感識別研究1.1基于短時特征的情感識別1.1.1特征提取許多研究者認為,語音的韻律特征是說話者情感狀態(tài)的一個重要指示。一些對情感語音的研究表明.基音頻率、能量和共振峰頻率是區(qū)分某些情感的有效特征。本文共研究了五組語音短時特征,包括基音頻率(Fo)、短時能量、前三個共振峰頻率(到)、兩個Mel頻率倒譜系數(shù)(MFCC)和五個Mel頻率子帶能量(到)以及它們的一階和二階導(dǎo)數(shù)。短時分析的窗長為20ms,幀移10ms,窗函數(shù)為漢明窗?;l提取使用短時自相關(guān)方法,并通過一個3階的中值濾波器與內(nèi)插得到平滑的基頻包絡(luò)。此

2、外,為了避免不同性別的人基頻差別太大,對每人的基頻都進行了去均值處理。共振峰頻率的估計使用文獻[5]中提出的方法。為了提取子帶能量,通過快速傅立葉變換(FVT)方法估計每幀的短時譜,并將短時譜通過五個在Mel尺度上均勻分布且頻率范圍在[6OHz一760OHz]內(nèi)的濾波器。計算每個濾波器的對數(shù)平均能量。便得到五個子帶能量參數(shù)MBEl到MBE5。試驗表明,使用上述所有特征用于情感識別時存在冗余信息,并不能達到最好的識別效果。岡此必須選擇一個最優(yōu)子集作為特征矢量。通過文獻[6]所述的特征選擇方法,最后確定所用的每一幀短時特征(STF)矢

3、量為:其中f表示第f幀,五個特征分別為:的二階導(dǎo)數(shù),的一階導(dǎo)數(shù),的二階導(dǎo)數(shù),的二階導(dǎo)數(shù)及的一階導(dǎo)數(shù)。這一特征矢量充分地利用了語音中基頻輪廓的變化及其極值分布規(guī)律。高頻率子帶能量特性以及第一共振峰的變化特征。為了避免由于不同語言、不同人的區(qū)別以及錄音音量的差別所引起的某些數(shù)值太大或者太小的情況,所有的參數(shù)通過線性縮放,將其范圍限制在[0,100]。1.2基于長時特征的情感識別1.2.1特征提取除了上述參數(shù)外,頻譜的動態(tài)特性也是語音情感的一個重要指示。本文從語音在頻率尺度上的動態(tài)特性出發(fā)研究情感的識別,提出了一個稱為美爾能譜動態(tài)系數(shù)(

4、MESDC)的特征矢量。MESDC的計算過程如圖所示:首先通過快速傅立葉變換(FFT)方法估計每一情感短句的長時譜.再令其通過N個均勻分布在Mel頻率尺度上的濾波器。計算每一個濾波器輸出的對數(shù)平均能量(En(i),i=1,?,N)。之后求En(i)的一階及二階差分。后聯(lián)立得到MESDC的特征矢量:這里N設(shè)為12.在輸入到分類器之前矢量中的每一參數(shù)都要經(jīng)過了一次線性歸一化處理。長時語音特征在說話人識別技術(shù)上的應(yīng)用1長時時頻特征的提取與處理技術(shù)1.1特征提取算法本方法框架上采用Kenny提出的架構(gòu),把連續(xù)有基頻值的濁音段提取出來,在每

5、一個段內(nèi),通過能量曲線的谷點,切分出類似音字(phoneme)的單元,然后,在每一個單元內(nèi)部,把基頻曲線,時域能量曲線,分別利用6階多項式擬合得到6維的參數(shù),與單元的長度一起構(gòu)成13維的特征.因此,每一個單元提取出一幀特征,這種時頻特征的幀數(shù)大大減少。但是由于描述的是長時的信息,可以描述幀與幀之間的聯(lián)系,而短時的MFCC系數(shù)差分特征恰恰描述不了這種長時的變化趨勢,因此這種長時時頻特征的系統(tǒng)與基于MFCC的系統(tǒng)融合在一起會進一步提高整體系統(tǒng)的性能.本方法的不同之處在于,不僅僅擬合基頻和時域能量曲線,還擬合了前4個共振峰曲線和前10個

6、諧波能量的曲線。因為,我們認為,每個人的共振峰頻率長時變化趨勢也可以在一定程度上反應(yīng)說話人的信息,而且每個諧波能量的曲線變化信息不僅僅反應(yīng)了被共振峰調(diào)制的諧波能量變化趨勢,也反應(yīng)了共振峰的強弱,這恰恰彌補了共振峰頻率不能提供的幅度信息。在實驗中,我們?nèi)诤现C波能量曲線特征和共振峰頻率曲線特征在一起來提高系統(tǒng)的性能?;陂L時性特征的音位屬性檢測方法許友亮張連海屈丹牛銅基于層級TDNN的特征提取系統(tǒng)由2層TDNN構(gòu)成,低層的TDNN對短時特征進行分類,其輸入特征為幀MFCC參數(shù),輸出為音素后驗概率;高層TDNN以低層TDNN輸出為觀測特

7、征,考慮更長時段內(nèi)的信息,其輸入特征為2+1幀,時長通??蛇_到200ms甚至更長,使得高層MLP能夠獲得音素、字詞或詞間的信息。另外,由于低層TDNN的輸出為0-1之間的概率值,為了使該分布高斯化和離散化,需對其進行非線性變換,包括log運算或PCA降維等。由于高層TDNN的輸入考慮到了長時段內(nèi)的信息,使得MLP在訓(xùn)練過程中“學(xué)到”了語音信號間的相關(guān)性;由于高層MLP考慮的信息更長,在某種意義上起著“平滑”的作用,相對于低層TDNN的檢測結(jié)果,高層MLP輸出的插入錯誤明顯減少。時間延遲神經(jīng)網(wǎng)絡(luò)(TDNN)TDNN的最大特點是在ML

8、P的隱含層引入了時間延遲因子Dj,即當(dāng)前時刻的輸入經(jīng)過若干時刻的延遲后,對后續(xù)的判決產(chǎn)生影響,從而將更長時段的信息引入該分類器中,使模型“學(xué)到”長時段內(nèi)的信息。如圖1所示,其中,為輸入節(jié)點,為隱含層權(quán)重。

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。