資源描述:
《混響環(huán)境中的麥克風(fēng)陣列語音聲源定位與跟蹤算法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、隸劫大◆粵博士學(xué)位論文萬方數(shù)據(jù)混響環(huán)境中的麥克風(fēng)陣列語音聲源定位與跟蹤算法研究本論文獲國(guó)家自然科學(xué)基金項(xiàng)目(60971098)資助。萬方數(shù)據(jù)RESEARCHONSPEECHSOURCELOCALIZATIONANDTRACKINGBASEDONMICROPHONEARRAYINREVERBERANTENVIRONMENTSADissertationSubmittedtoSoutheastUniversityFortheAcademicDegreeofDoctorofEngineeringBYXiaoyanZHAOSupervisedby
2、ProfessorZhenyangⅥUSchoolofInformationScienceandEngineeringSoutheastUniversityJune2014萬方數(shù)據(jù)東南大學(xué)學(xué)位論文獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得東南大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均己在論文中作了明確的說明并表示了謝意。研究生簽名:亟dl瑩。日
3、期:2Q出吐:!魚東南大學(xué)學(xué)位論文使用授權(quán)聲明東南大學(xué)、中國(guó)科學(xué)技術(shù)信息研究所、國(guó)家圖書館有權(quán)保留本人所送交學(xué)位論文的復(fù)印件和電子文檔,可以采用影印、縮印或其他復(fù)制手段保存論文。本人電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相一致。除在保密期內(nèi)的保密論文外,允許論文被查閱和借閱,可以公布(包括以電子信息形式刊登)論文的全部?jī)?nèi)容或中、英文摘要等部分內(nèi)容。論文的公布(包括以電子信息形式刊登)授權(quán)東南大學(xué)研究生院辦理。研究生簽名:趣墊!童!導(dǎo)師簽名研究生簽名:巡墊!墨!導(dǎo)師簽名期:型I旦夕5.Ib萬方數(shù)據(jù)摘要麥克風(fēng)陣列己在諸多領(lǐng)域得到廣泛應(yīng)用,包括視頻會(huì)
4、議、智能機(jī)器人、語音增強(qiáng)、語音識(shí)別、說話人識(shí)別和監(jiān)控監(jiān)聽系統(tǒng)等。語音聲源定位與跟蹤在麥克風(fēng)陣列應(yīng)用中起著至關(guān)重要的作用。然而由于混響、噪聲等不利因素的影響,實(shí)時(shí)的、魯棒的語音聲源定位與跟蹤是一項(xiàng)非常困難的工作。本文以在含噪的混響環(huán)境中實(shí)現(xiàn)實(shí)時(shí)的、魯棒的、較高精度的語音聲源定位與跟蹤為出發(fā)點(diǎn),結(jié)合陣列信號(hào)處理和語音信號(hào)處理的特點(diǎn),對(duì)基于麥克風(fēng)陣列的語音聲源定位與跟蹤算法進(jìn)行了深入地研究。論文的主要研究成果歸納如下:(1)基于聚類搜索的快速相位變換加權(quán)可控響應(yīng)功率(SRP.PHAT:SteeredResponsePower-PhaseTra
5、nsform)聲源定位算法。SRP.PHAT算法因其在混響環(huán)境中有較強(qiáng)的魯棒性而成為目前最為流行的聲源定位算法之一。然而巨大的計(jì)算量是SRP.PHAT算法被運(yùn)用于實(shí)時(shí)定位系統(tǒng)的一個(gè)最大障礙。對(duì)于一個(gè)麥克風(fēng)陣列系統(tǒng),每個(gè)候選位置都對(duì)應(yīng)于一組達(dá)到時(shí)間差(TDOA:TimeDifferencesofArrival),我們將這組TDOA表示為矢量的形式。利用相鄰區(qū)域的TDOA矢量相似度比較大的特點(diǎn),本文提出一種基于聚類搜索的快速SRP.PHAT聲源定位算法,該算法包括訓(xùn)練和定位兩個(gè)階段。在訓(xùn)練階段,采用聚類的方法將搜索空間劃分為若干類別(子區(qū)域
6、),屬于同一類別的方位角所對(duì)應(yīng)的TDOA矢量具有較高的相似度,訓(xùn)練過程離線完成,將聚類結(jié)果存儲(chǔ)于查詢表中。在定位階段,采取由粗到細(xì)的搜索策略,首先計(jì)算并比較各聚類中心的可控響應(yīng)功率,確定聲源所屬的類別,然后計(jì)算并比較該類別內(nèi)所有候選位置的可控響應(yīng)功率,確定聲源的具體方位角。仿真實(shí)驗(yàn)和真實(shí)環(huán)境實(shí)驗(yàn)的結(jié)果均表明,基于聚類搜索的SRP.PHAT聲源定位算法能大幅度地減少計(jì)算量,并且能基本保持原算法的魯棒性和定位精度。(2)基于三線快速搜索的SRP.PHAT算法。為降低SRP.PHAT算法的計(jì)算量,提出基于三線快速搜索的SRP.PHAT算法,該
7、算法適用于未知聲源處于陣列的遠(yuǎn)場(chǎng)或近場(chǎng)的情形?;谌€快速搜索的SRP.PHAT算法受啟發(fā)于柱坐標(biāo)系下的空間功率譜分布規(guī)律,采取由粗到細(xì)的搜索策略,包括兩個(gè)步驟:首先粗略地估計(jì)聲源的水平方位角并判斷聲源是位于遠(yuǎn)場(chǎng)還是近場(chǎng);然后根據(jù)判斷結(jié)果采取不同的精細(xì)搜索方案,確定聲源位置的最終估計(jì)結(jié)果。仿真數(shù)據(jù)和實(shí)際數(shù)據(jù)的實(shí)驗(yàn)結(jié)果均表明,本文算法在有效減少計(jì)算量的同時(shí)具有與原算法相近的定位性能。(3)基于壓縮感知的聲源定位算法。SRP—PHAT定位算法在混響環(huán)境中有較強(qiáng)的魯棒性,然而在很惡劣的噪聲和混響環(huán)境下,SRP.PHAT算法的定位性能急劇惡化。
8、本文提出一種基于壓縮感知的聲源定位算法。該算法將聲源定位問題轉(zhuǎn)化稀疏信號(hào)的重構(gòu)問題,利用房間沖激響應(yīng)構(gòu)建字典,將每個(gè)位置的房間沖激響應(yīng)作為區(qū)別于其它位置的特征?;趬嚎s感知的聲源定位算法首先將麥克風(fēng)接收信號(hào)