資源描述:
《基于KELM決策融合的語音情感識別》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、基于KELM決策融合的語音情感識別摘要:針對語音情感信號的復(fù)雜性和單一分類器識別的局限性,提出一種核函數(shù)極限學(xué)習(xí)機(jī)(KELM)決策融合的方法用于語音情感識別。首先對語音信號提取不同的特征,并訓(xùn)練相應(yīng)的基分類器,同時(shí)將輸出轉(zhuǎn)化為概率型輸出;然后利用測試集在基分類器的輸出概率值計(jì)算自適應(yīng)動(dòng)態(tài)權(quán)值;最后對各慕分類器的輸出進(jìn)行線性加權(quán)融合得到最終的分類結(jié)果。利用該方法對柏林語音庫中4種情感進(jìn)行識別,實(shí)驗(yàn)結(jié)果表明,提出的融合KELM方法優(yōu)于常用的單分類器以及多分類器融合方法,有效地提高了語咅情感識別系統(tǒng)的性能。關(guān)鍵詞:語音情感識別;核函數(shù)極限學(xué)習(xí)機(jī);決策策略;概率矩陣0引言人類的情感很難從一個(gè)量化的角度
2、定義,其中語音是一種包含說話人信息、語義、情感的復(fù)雜信號,是識別情感狀態(tài)的有效途徑。語咅情感識別是計(jì)算機(jī)分析語音信號的特征參數(shù)并自動(dòng)判別情感狀態(tài)的一門技術(shù),是語音信號處理領(lǐng)域屮非常重要的研究方向,廣泛應(yīng)用于人工服務(wù)、精神健康診斷治療、遠(yuǎn)程教學(xué)、機(jī)器人等領(lǐng)域。目前,國內(nèi)外學(xué)者采用多種分類方法用于語音情感識別,常用的有隱馬爾科夫模型(HiddenMarkovmodel,HMM)>支持向量機(jī)(SupportVectorMachine,SVM)和人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)等,NWETL⑴等人對一個(gè)漢語普通話語音庫和一個(gè)緬甸語語音庫訓(xùn)練和測試HMM,對6種情感
3、的平均識別率可以達(dá)到75.5%和78.5%,TATOR[2]等人使用SVM對喜、怒、悲、中性4種情感進(jìn)行識別研究,最終平均識別率達(dá)到73%o極限學(xué)習(xí)機(jī)(ExtremeLearningMachine,ELM)是由HUANGGB等⑶于2006年提出的一-種應(yīng)用于廣義單隱層前饋神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法,與常用的ANN、SVM相比極大地提高了網(wǎng)絡(luò)的學(xué)習(xí)速度和泛化性能⑷,已經(jīng)在故障診斷⑸、病理診斷⑹等領(lǐng)域得到應(yīng)用。文獻(xiàn)[7]中證明ELM與SVM分類精度相似,但學(xué)習(xí)速度優(yōu)于SVM、參數(shù)選擇更容易,同時(shí)文中將Mercer條件用于網(wǎng)絡(luò)模型,提出性能更好的核函數(shù)極限學(xué)習(xí)機(jī)(ExtremeLearningMachine
4、withKernel,KELM),據(jù)此本文采用KELM作為分類器。傳統(tǒng)的語音情感識別方法均是采用單一特征或多個(gè)特征簡單相加來構(gòu)建單個(gè)網(wǎng)絡(luò)進(jìn)行分類識別,這種模式若要達(dá)到最佳的識別結(jié)果,需選擇最全面的輸入特征以及最優(yōu)的分類器,但是兩者兼顧最優(yōu)是很難實(shí)現(xiàn)的。近年來提出的融合技術(shù)⑹通過制定融合規(guī)則在一定程度上實(shí)現(xiàn)了兩個(gè)“最優(yōu)”。因此,本文提出融合KELM的方法,該方法不僅繼承了極限學(xué)習(xí)機(jī)分類精度高、學(xué)習(xí)速度快的性能,還具有融合技術(shù)識別率高的優(yōu)勢。設(shè)計(jì)實(shí)驗(yàn)將本文方法在柏林語音庫中測試,提取聚合經(jīng)驗(yàn)?zāi)B(tài)分解(EnsembleEmpiricalModeDecomposition,EEMD)特征、韻律特征、梅
5、爾倒譜系數(shù)特征(Mel-FregurecyCepstrumCoefficients,MFCC),通過對基分類器的輸出加權(quán)融合,實(shí)現(xiàn)語音情感識別。1核函數(shù)極限學(xué)習(xí)機(jī)極限學(xué)習(xí)機(jī)的隱層參數(shù)均為隨機(jī)產(chǎn)生,且無需迭代,因此比傳統(tǒng)方法參數(shù)選擇簡單、學(xué)習(xí)速度快。核函數(shù)極限學(xué)習(xí)機(jī)由ELM衍生而來,其解決多分類識別問題的能力更強(qiáng)。對于一個(gè)輸入為d維向量X”輸出標(biāo)簽為ti(i=1,N)的基木極限學(xué)習(xí)機(jī)模型描述為:KELM模型中,廣義逆矩陣中的參數(shù)C與核函數(shù)中的參數(shù)g的選擇會影響識別性能,需優(yōu)化求解。2融合KELM基于加權(quán)求和的分類器決策融合方法可以分為兩種:基于硬判決輸出和基于軟判決輸出的融合方法。對于前者,每個(gè)
6、分類器的輸岀是一個(gè)標(biāo)簽,通過計(jì)算各分類器輸出的所有類別數(shù)量,將得到最大的票數(shù)的類別作為最后的輸擊;而對于后者,每個(gè)分類器的輸出為決策概率,各個(gè)分類器按照分配的權(quán)重加權(quán)求和得到輸出結(jié)果?;谲浥袥Q輸出的方法通過輸出一個(gè)介于0?1之間的概率相比于輸出0/1的硬判決輸岀方法更能準(zhǔn)確地分類,故選擇軟判決的融合方法。這里需要解決兩個(gè)問題:(1)將KELM的數(shù)值輸岀轉(zhuǎn)化為概率輸岀;(2)確定決策策略。2.1概率矩陣基本KELM的輸出為數(shù)值輸出,為了將輸出范圍統(tǒng)一,仿照概率支持向量機(jī)的研究將KELM的輸出轉(zhuǎn)化為概率形式:2.2決策策略融合權(quán)值的確定是一個(gè)關(guān)鍵問題,決策權(quán)重一般由分類器在訓(xùn)練數(shù)據(jù)上的性能決定,
7、決策吋會給訓(xùn)練吋性能好的分類器分配較大的權(quán)重,但這樣會忽略測試樣本的多樣性和特性,所以計(jì)算權(quán)重分布時(shí)不僅應(yīng)考慮分類器的性能,還應(yīng)考慮測試樣本的特性,這是本文制定決策策略的核心思想。融合KELM算法實(shí)現(xiàn)框圖如圖1o該方法的具體實(shí)現(xiàn)如下:⑴訓(xùn)練階段訓(xùn)練樣本經(jīng)預(yù)處理后,分別提取n類特征,記為???,F(xiàn)n,利用特征分別訓(xùn)練N個(gè)核函數(shù)極限學(xué)習(xí)機(jī),記為KELMi,i=1,No(2)識別階段%1對于預(yù)處理后的測