資源描述:
《短時過零率和短時能量》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、幀和加窗的概念1.短時分析將語音流分為一段一段來處理,每一段稱為一“幀”;2.幀長:10~30ms,20ms常見;(幀率)幀移:0~1/2幀長,幀與幀之間的平滑過度;3.為了減少語音幀的截?cái)嘈?yīng),需要加窗處理;將具有不連續(xù)點(diǎn)的周期函數(shù)(如矩形脈沖)進(jìn)行傅立葉級數(shù)展開后,選取有限項(xiàng)進(jìn)行合成。當(dāng)選取的項(xiàng)數(shù)越多,在所合成的波形中出現(xiàn)的峰起越靠近原信號的不連續(xù)點(diǎn)。當(dāng)選取的項(xiàng)數(shù)很大時,該峰起值趨于一個常數(shù),大約等于總跳變值的9%。這種現(xiàn)象稱為截?cái)嘈?yīng),又叫吉布斯效應(yīng)。矩形窗、Hamming、Hann等窗函數(shù)及其比較三種窗函數(shù)都有低通特性,通過分析三種窗的頻率響應(yīng)幅
2、度特性可以發(fā)現(xiàn):矩形窗的主瓣寬度最小,旁瓣高度最高,會導(dǎo)致泄露現(xiàn)象,漢明窗的主瓣最寬,旁瓣高度最低,可以有效的克服泄露現(xiàn)象,具有更平滑的低通特性,應(yīng)用更廣泛。短時平均能量的主要用途(1)可以從語音中區(qū)別濁音來,因?yàn)闈嵋魰r短時平均能量的值要比清音時短時平均能量的值大很多;(2)可以用來區(qū)別聲母和韻母的分界、無聲和有聲的分界等。短時過零率短時過零率可以看作信號頻率的簡單度量(1)過零就是指信號通過零值。過零率就是每秒內(nèi)信號值通過零值得次數(shù)。(2)對于離散時間序列,過零則是指序列取樣值改變符號,過零率則是每個樣本的改變符號的次數(shù)。對于語音信號,則是指在一幀語音
3、中語音信號波形穿過橫軸(零電平)的次數(shù)??梢杂孟噜弮蓚€取樣改變符號的次數(shù)來計(jì)算。應(yīng)用于語音信號分析中(1)發(fā)濁音時,聲帶振動,因而聲門激勵是以此音調(diào)頻率為基頻來使聲道共振;盡管有若干個共振峰,但其能量的分布集中于低于3KHz的頻率范圍內(nèi)。(2)發(fā)清音時聲帶不振動,聲道某部分阻塞產(chǎn)生類白噪聲激勵,通過聲道后其能量集中在比濁音時更高的頻率范圍內(nèi)。(3)濁音時能量集中于較低頻率段內(nèi),具有較低的過零率,而清音時能量集中于較高頻率段內(nèi),具有較高的過零率。(4)短時平均能量和短時平均過零率兩個參數(shù),也都可以用于語音識別中。主要用于識別無聲段和語音段的起點(diǎn)和終點(diǎn)的位置
4、。(5)在背景噪聲比較小的時候用平均能量來識別比較有效,在背景噪聲比較大的時候用平均過零率來識別比較有效,但是通常情況是兩個參數(shù)聯(lián)合進(jìn)行識別。濁音、清音、無聲的短時特性S(無聲)U(清音)V(濁音)三種情況下短時平均幅度條件概率密度的示意圖??梢钥闯觯瑵嵋舻亩虝r平均幅度最大,無聲的短時平均幅度最小。清音的短時過零率最大,無聲居中,濁音的短時過零率最小。語音信號短時能量和過零率的特征語音一般分為無聲段,清音段和濁音段。一般把濁音認(rèn)為是一個以基音周期為周期的斜三角脈沖串,把清音模擬成隨機(jī)白噪聲。由于語音信號是一個非平穩(wěn)態(tài)過程,不能用處理平穩(wěn)信號的信號處理技術(shù)
5、對其進(jìn)行分析處理。但由于語音信號本身的特點(diǎn),在10~30ms的短時間范圍內(nèi),其特性可以看作是一個準(zhǔn)穩(wěn)態(tài)過程,即具有短時性,因此采用短時能量和過零率來對語音進(jìn)行端點(diǎn)檢測是可行的。語音和噪聲的區(qū)別可以體現(xiàn)在他們的能量上,語音段的能量比噪聲段的能量大,如果環(huán)境噪聲和系統(tǒng)輸入的噪聲比較小,只要計(jì)算輸入信號的短時能量就能夠把語音段和噪聲背景區(qū)分開,除此之外,用基于能量的算法來檢測濁音通常效果也是比較理想的,因?yàn)闈嵋舻哪芰恐当惹逡舸蟮枚?,可以判斷濁音和清音之間過渡的時刻[3],但對清音來說,效果不是很好,因此還需要借助短時過零率來表征。短時能量可以近似為互補(bǔ)的情況,
6、短時能量大的地方過零率小,短時能量小的地方過零率較大。基于短時能量和過零率的檢測方法?盡管基于短時能量和過零率的檢測方法各有其優(yōu)缺點(diǎn),但是若將這兩種基本方法相結(jié)合起來使用也可以實(shí)現(xiàn)對語音信號可靠的端點(diǎn)檢測。無聲段的短時能量為零,清音段的短時能量又比濁音段的短時能量大,而在過零率方面,理想的情況是無聲段的過零率為零,濁音段的過零率比清音段的過零率要大的多,因此,假設(shè)有一段語音,如果某部分短時能量和過零率都為零或者為很小的值,就可以認(rèn)為這部分為無聲段,如果該部分語音短時能量很大但是過零率很小,則認(rèn)為該部分語音為濁音段,如果該部分短時能量很小但是過零率很大,則
7、認(rèn)為該部分語音為清音段。正如前面提到,語音信號具有短時性,因此在對語音信號進(jìn)行分析時,需要將語音信號以30ms為一段分為若干幀來進(jìn)行分析,則兩幀起始點(diǎn)之間的間隔為10ms。為防止誤判以及無聲段過零率太大,設(shè)tmp1和tmp2為相鄰兩個采樣點(diǎn),則同時滿足tmp1*tmp2<0和tmp1-tmp2的絕對值大于delta時才算一次過零,除此之外,為短時能量和過零率分別確定兩個門限,一個是較低的門限和,其數(shù)值較小,對信號的變化比較敏感,很容易就會被超過。另一個是較高的門限和,數(shù)值較大,信號必須達(dá)到一定的強(qiáng)度,該門限才可能被超過。低門限被超過有可能是時間很短的噪聲
8、引起的,高門限被超過則可以基本確定是由語音信號引起的,如圖3所示。短時能量分析是