資源描述:
《胡歡水文獻(xiàn)綜述》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、附件1:文獻(xiàn)綜述語音合成技術(shù)專業(yè)班級:電子本083姓名:胡歡水學(xué)號:08010402摘要:隨著社會的發(fā)展和科學(xué)技術(shù)的進(jìn)步,人類已跨入信息時代,人們在不斷尋求靈活、方便、快捷的信息交換方式。而語音是眾多信息載體中具有最大信息容量、最高智能水平的信號之一,作為信息交換的一種方式——語音具有其獨(dú)特的優(yōu)越性。語音合成技術(shù)是新一代智能計算機(jī)的一項(xiàng)重要標(biāo)志,是計算機(jī)智能接口的重要組成部分。它能為我們提供基于自然語言的人機(jī)通訊方式,大大改善人機(jī)界面,與語音識別相結(jié)合,就能達(dá)到人機(jī)對話的目的。本文對語音合成,語音合成技術(shù)的方
2、法和TTS的基本結(jié)構(gòu)進(jìn)行了介紹,列舉了一些語音合成技術(shù)在生活中的實(shí)際應(yīng)用,并對語音合成技術(shù)進(jìn)行了展望。關(guān)鍵詞:語音合成技術(shù);語音合成一語音合成簡介語音合成,又稱文語轉(zhuǎn)換(texttospeech)技術(shù),它涉及聲學(xué)、語言學(xué)、數(shù)字信號處理、計算機(jī)科學(xué)等多個學(xué)科技術(shù),解決的主要問題就是如何將文字信息轉(zhuǎn)化為可聽的聲音信息[。傳統(tǒng)的聲音回放設(shè)備(系統(tǒng)),是通過預(yù)先錄制聲音然后回放來實(shí)現(xiàn)“讓機(jī)器說話”的。這種方式無論是在內(nèi)容、存儲、傳輸或者方便性、及時性等方面都存在很大的限制。而通過計算機(jī)語音合成則可以在任何時候?qū)⑷我馕?/p>
3、本轉(zhuǎn)換成具有高自然度的語音,從而真正實(shí)現(xiàn)讓機(jī)器“像人一樣開口說話”。一個語音合成系統(tǒng)。按其合成方式主要分為有限詞匯和無限詞匯的合成,按其使用目的和約束條件等可分為各種合成方法,最簡單的是錄音編輯方式,其次是波形編碼方式,再次是參數(shù)編碼方式,最后是按規(guī)則合成方式[1]。二語音合成技術(shù)的方法語音合成技術(shù)可分為參數(shù)合成和波形拼接兩種方法。早期的研究主要是采用參數(shù)合成方法,它是計算發(fā)音器官的參數(shù),能對人的發(fā)音進(jìn)行直接模擬。由于準(zhǔn)確提取共振峰參數(shù)比較困難,雖然利用共振峰合成器可以得到許多逼真的合成語音,但是整體合成語音
4、的音質(zhì)難以達(dá)到文語轉(zhuǎn)換系統(tǒng)的實(shí)用要求。因此后來又產(chǎn)生了基于LPC、ISP等聲學(xué)參數(shù)的合成系統(tǒng)。自八十年代末期至今,語言合成技術(shù)又有了新的進(jìn)展,特別是基音同步疊加(PSOLA)方法的提出,使基于時域波形拼接方法合成的語音的音色和自然度大大提高。九十年代初,基于PSOLA技術(shù)的法語、德語、英語、日語等語種的文語轉(zhuǎn)換系統(tǒng)都已經(jīng)研制成功。這些系統(tǒng)的自然度比以前基于LPC方法或共振峰合成器的文語合成系統(tǒng)的自然度要高。在文獻(xiàn)[2]中,作者認(rèn)為目前的語音合成技術(shù)主要是基于共振峰的參數(shù)合成技術(shù)和基于PSOLA算法的波形拼接合
5、成技術(shù)。這兩種技術(shù)各有所長,共振峰技術(shù)比較成熟,有大量的研究成果可以利用,而PSOLA技術(shù)則是比較新的技術(shù),具有良好的發(fā)展前景。三語音合成技術(shù)的缺陷在文獻(xiàn)[3][4]作者認(rèn)為語音合成技術(shù)發(fā)展至今,存在著一些缺點(diǎn),主要體現(xiàn)在以下方面:①與可懂度直接相關(guān)的發(fā)音質(zhì)量,包括音質(zhì)缺陷、多音字、輕聲、變調(diào)、數(shù)字串等方面的問題。②與自然度密切相關(guān)的“分詞斷句”錯誤,反映了韻律結(jié)構(gòu)預(yù)測方面的問題。③合成語音音色單一、語調(diào)缺少變化、缺乏表現(xiàn)能力,直接原因是由于系統(tǒng)中沒有輕重音、功能語調(diào)、發(fā)音風(fēng)格等方面的控制。這些問題的存在表明
6、:目前的語音合成技術(shù)還處在“表音”層次,而且在這一層次系統(tǒng)性能還有提升的空間;另外,系統(tǒng)還不具備屬于更高層次的“表情達(dá)意”的能力,還不能通過合成語音準(zhǔn)確、生動地傳遞語義信息[5]。四TTS的基本結(jié)構(gòu)在文獻(xiàn)[6][7][8]中作者將TTS的基本結(jié)構(gòu)分為語言學(xué)處理、韻律處理和聲學(xué)處理三大模塊,并對三大模塊進(jìn)行了介紹。其基本工作原理是:事先將全部的漢語音節(jié)進(jìn)行錄音,形成音頻數(shù)據(jù),以音庫的形式存放在計算機(jī)的磁盤上,以供調(diào)用。然后用鍵盤、光電掃描等輸人手段,形成ASCII文本文件(最新的系統(tǒng)也允許為WORD文件、INT
7、ERNET文檔)。系統(tǒng)運(yùn)行時,先將ASCII文本文件進(jìn)行語言學(xué)處理、韻律處理,得到語流控制參數(shù)。然后讀取音庫,從音庫中得到對應(yīng)的音頻數(shù)據(jù),再經(jīng)聲學(xué)處理形成連續(xù)的語聲流,即完成了從文本到語音的轉(zhuǎn)換過程。其結(jié)構(gòu)如圖1所示:圖1TTS的基本結(jié)構(gòu)圖4.1語言學(xué)處理語言學(xué)處理在文語轉(zhuǎn)換系統(tǒng)中起著重要的作用,主要模擬人對自然語言的理解過程,使計算機(jī)對輸入的文本能完全理解并給出后兩部分所需的各種發(fā)音提示。其工作過程可以分為三個主要步驟:(1)文本規(guī)整將輸入的文本規(guī)范化。在這個過程中,要查找拼寫錯誤,并將文本中出現(xiàn)的一些不規(guī)
8、范或無法發(fā)音的字符過濾掉。(2)詞的切分分析文本中詞或短語的邊界,確定文字的讀音,同時分析文本中出現(xiàn)的數(shù)字、姓氏、特殊字符、專有詞語以及各種多音字的讀音方式。(3)語法分析和語義分析根據(jù)文本的結(jié)構(gòu)、組成和不同位置上出現(xiàn)的標(biāo)點(diǎn)符號,確定語氣的變換以及不同音的輕重方式。最終,文本分析模塊將輸入的文字轉(zhuǎn)換成計算機(jī)能夠處理的內(nèi)部參數(shù),便于后續(xù)模塊進(jìn)一步處理并生成相應(yīng)的信息。4.2韻律處理為合成語音規(guī)劃出音段