資源描述:
《短時過零率和短時能量》由會員上傳分享,免費在線閱讀,更多相關內容在行業(yè)資料-天天文庫。
1、幀和加窗的概念1.短時分析將語音流分為一段一段來處理,每一段稱為一“幀”;2.幀長:10~30ms,20ms常見;(幀率)幀移:0~1/2幀長,幀與幀之間的平滑過度;3.為了減少語音幀的截斷效應,需要加窗處理;將具有不連續(xù)點的周期函數(如矩形脈沖)進行傅立葉級數展開后,選取有限項進行合成。當選取的項數越多,在所合成的波形中出現(xiàn)的峰起越靠近原信號的不連續(xù)點。當選取的項數很大時,該峰起值趨于一個常數,大約等于總跳變值的9%。這種現(xiàn)象稱為截斷效應,又叫吉布斯效應。矩形窗、Hamming、Hann等窗函數及其比較三種窗函數都有低通特性,通過分析三種窗的頻率響應幅
2、度特性可以發(fā)現(xiàn):矩形窗的主瓣寬度最小,旁瓣高度最高,會導致泄露現(xiàn)象,漢明窗的主瓣最寬,旁瓣高度最低,可以有效的克服泄露現(xiàn)象,具有更平滑的低通特性,應用更廣泛。短時平均能量的主要用途(1)可以從語音中區(qū)別濁音來,因為濁音時短時平均能量的值要比清音時短時平均能量的值大很多;(2)可以用來區(qū)別聲母和韻母的分界、無聲和有聲的分界等。短時過零率短時過零率可以看作信號頻率的簡單度量(1)過零就是指信號通過零值。過零率就是每秒內信號值通過零值得次數。(2)對于離散時間序列,過零則是指序列取樣值改變符號,過零率則是每個樣本的改變符號的次數。對于語音信號,則是指在一幀語音
3、中語音信號波形穿過橫軸(零電平)的次數。可以用相鄰兩個取樣改變符號的次數來計算。應用于語音信號分析中(1)發(fā)濁音時,聲帶振動,因而聲門激勵是以此音調頻率為基頻來使聲道共振;盡管有若干個共振峰,但其能量的分布集中于低于3KHz的頻率范圍內。(2)發(fā)清音時聲帶不振動,聲道某部分阻塞產生類白噪聲激勵,通過聲道后其能量集中在比濁音時更高的頻率范圍內。(3)濁音時能量集中于較低頻率段內,具有較低的過零率,而清音時能量集中于較高頻率段內,具有較高的過零率。(4)短時平均能量和短時平均過零率兩個參數,也都可以用于語音識別中。主要用于識別無聲段和語音段的起點和終點的位置
4、。(5)在背景噪聲比較小的時候用平均能量來識別比較有效,在背景噪聲比較大的時候用平均過零率來識別比較有效,但是通常情況是兩個參數聯(lián)合進行識別。濁音、清音、無聲的短時特性S(無聲)U(清音)V(濁音)三種情況下短時平均幅度條件概率密度的示意圖??梢钥闯?,濁音的短時平均幅度最大,無聲的短時平均幅度最小。清音的短時過零率最大,無聲居中,濁音的短時過零率最小。語音信號短時能量和過零率的特征語音一般分為無聲段,清音段和濁音段。一般把濁音認為是一個以基音周期為周期的斜三角脈沖串,把清音模擬成隨機白噪聲。由于語音信號是一個非平穩(wěn)態(tài)過程,不能用處理平穩(wěn)信號的信號處理技術
5、對其進行分析處理。但由于語音信號本身的特點,在10~30ms的短時間范圍內,其特性可以看作是一個準穩(wěn)態(tài)過程,即具有短時性,因此采用短時能量和過零率來對語音進行端點檢測是可行的。語音和噪聲的區(qū)別可以體現(xiàn)在他們的能量上,語音段的能量比噪聲段的能量大,如果環(huán)境噪聲和系統(tǒng)輸入的噪聲比較小,只要計算輸入信號的短時能量就能夠把語音段和噪聲背景區(qū)分開,除此之外,用基于能量的算法來檢測濁音通常效果也是比較理想的,因為濁音的能量值比清音大得多,可以判斷濁音和清音之間過渡的時刻[3],但對清音來說,效果不是很好,因此還需要借助短時過零率來表征。短時能量可以近似為互補的情況,
6、短時能量大的地方過零率小,短時能量小的地方過零率較大?;诙虝r能量和過零率的檢測方法?盡管基于短時能量和過零率的檢測方法各有其優(yōu)缺點,但是若將這兩種基本方法相結合起來使用也可以實現(xiàn)對語音信號可靠的端點檢測。無聲段的短時能量為零,清音段的短時能量又比濁音段的短時能量大,而在過零率方面,理想的情況是無聲段的過零率為零,濁音段的過零率比清音段的過零率要大的多,因此,假設有一段語音,如果某部分短時能量和過零率都為零或者為很小的值,就可以認為這部分為無聲段,如果該部分語音短時能量很大但是過零率很小,則認為該部分語音為濁音段,如果該部分短時能量很小但是過零率很大,則
7、認為該部分語音為清音段。正如前面提到,語音信號具有短時性,因此在對語音信號進行分析時,需要將語音信號以30ms為一段分為若干幀來進行分析,則兩幀起始點之間的間隔為10ms。為防止誤判以及無聲段過零率太大,設tmp1和tmp2為相鄰兩個采樣點,則同時滿足tmp1*tmp2<0和tmp1-tmp2的絕對值大于delta時才算一次過零,除此之外,為短時能量和過零率分別確定兩個門限,一個是較低的門限和,其數值較小,對信號的變化比較敏感,很容易就會被超過。另一個是較高的門限和,數值較大,信號必須達到一定的強度,該門限才可能被超過。低門限被超過有可能是時間很短的噪聲
8、引起的,高門限被超過則可以基本確定是由語音信號引起的,如圖3所示。短時能量分析是