科大訊飛語(yǔ)音引擎,科大訊飛語(yǔ)音識(shí)別.doc

科大訊飛語(yǔ)音引擎,科大訊飛語(yǔ)音識(shí)別.doc

ID:28115096

大?。?36.00 KB

頁(yè)數(shù):7頁(yè)

時(shí)間:2018-12-08

科大訊飛語(yǔ)音引擎,科大訊飛語(yǔ)音識(shí)別.doc_第1頁(yè)
科大訊飛語(yǔ)音引擎,科大訊飛語(yǔ)音識(shí)別.doc_第2頁(yè)
科大訊飛語(yǔ)音引擎,科大訊飛語(yǔ)音識(shí)別.doc_第3頁(yè)
科大訊飛語(yǔ)音引擎,科大訊飛語(yǔ)音識(shí)別.doc_第4頁(yè)
科大訊飛語(yǔ)音引擎,科大訊飛語(yǔ)音識(shí)別.doc_第5頁(yè)
資源描述:

《科大訊飛語(yǔ)音引擎,科大訊飛語(yǔ)音識(shí)別.doc》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、科大訊飛語(yǔ)音引擎,科大訊飛語(yǔ)音識(shí)別  今天,我們就為大家從技術(shù)上揭秘科大訊飛的新一代語(yǔ)音識(shí)別系統(tǒng)?! ”娝苤?,自2011年微軟研究院首次利用深度神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetwork,DNN)在大規(guī)模語(yǔ)音識(shí)別任務(wù)上獲得顯著效果提升以來(lái),DNN在語(yǔ)音識(shí)別領(lǐng)域受到越來(lái)越多的關(guān)注,目前已經(jīng)成為主流語(yǔ)音識(shí)別系統(tǒng)的標(biāo)配。然而,更深入的研究成果表明,DNN結(jié)構(gòu)雖然具有很強(qiáng)的分類能力,但是其針對(duì)上下文時(shí)序信息的捕捉能力是較弱的,因此并不適合處理具有長(zhǎng)時(shí)相關(guān)性的時(shí)序信號(hào)。而語(yǔ)音是一種各幀之間具有很強(qiáng)相關(guān)性的復(fù)雜時(shí)變信號(hào),這種相關(guān)性主要體現(xiàn)在說(shuō)話時(shí)的協(xié)同發(fā)音現(xiàn)象上,往往前后好幾個(gè)字對(duì)我們正要說(shuō)

2、的字都有影響,也就是語(yǔ)音的各幀之間具有長(zhǎng)時(shí)相關(guān)性?! 】拼笥嶏w語(yǔ)音引擎,科大訊飛語(yǔ)音識(shí)別  今天,我們就為大家從技術(shù)上揭秘科大訊飛的新一代語(yǔ)音識(shí)別系統(tǒng)。  眾所周知,自2011年微軟研究院首次利用深度神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetwork,DNN)在大規(guī)模語(yǔ)音識(shí)別任務(wù)上獲得顯著效果提升以來(lái),DNN在語(yǔ)音識(shí)別領(lǐng)域受到越來(lái)越多的關(guān)注,目前已經(jīng)成為主流語(yǔ)音識(shí)別系統(tǒng)的標(biāo)配。然而,更深入的研究成果表明,DNN結(jié)構(gòu)雖然具有很強(qiáng)的分類能力,但是其針對(duì)上下文時(shí)序信息的捕捉能力是較弱的,因此并不適合處理具有長(zhǎng)時(shí)相關(guān)性的時(shí)序信號(hào)。而語(yǔ)音是一種各幀之間具有很強(qiáng)相關(guān)性的復(fù)雜時(shí)變信號(hào),這種相關(guān)性主要體現(xiàn)

3、在說(shuō)話時(shí)的協(xié)同發(fā)音現(xiàn)象上,往往前后好幾個(gè)字對(duì)我們正要說(shuō)的字都有影響,也就是語(yǔ)音的各幀之間具有長(zhǎng)時(shí)相關(guān)性?!   D1:DNN和RNN示意圖  相比前饋型神經(jīng)網(wǎng)絡(luò)DNN,循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)在隱層上增加了一個(gè)反饋連接,也就是說(shuō),RNN隱層當(dāng)前時(shí)刻的輸入有一部分是前一時(shí)刻的隱層輸出,這使得RNN可以通過(guò)循環(huán)反饋連接看到前面所有時(shí)刻的信息,這賦予了RNN記憶功能,如圖1所示。這些特點(diǎn)使得RNN非常適合用于對(duì)時(shí)序信號(hào)的建模,在語(yǔ)音識(shí)別領(lǐng)域,RNN是一個(gè)近年來(lái)替換DNN的新的深度學(xué)習(xí)框架,而長(zhǎng)短時(shí)記憶模塊(Long-ShortTermMemory

4、,LSTM)的引入解決了傳統(tǒng)簡(jiǎn)單RNN梯度消失等問(wèn)題,使得RNN框架可以在語(yǔ)音識(shí)別領(lǐng)域?qū)嵱没@得了超越DNN的效果,目前已經(jīng)在業(yè)界一些比較先進(jìn)的語(yǔ)音系統(tǒng)中使用?! 〕酥?,研究人員還在RNN的基礎(chǔ)上做了進(jìn)一步改進(jìn)工作,圖2是當(dāng)前語(yǔ)音識(shí)別中的主流RNN聲學(xué)模型框架,主要還包含兩部分:深層雙向LSTMRNN和CTC(ConnecTIonistTemporalClassificaTIon)輸出層。其中雙向RNN對(duì)當(dāng)前語(yǔ)音幀進(jìn)行判斷時(shí),不僅可以利用歷史的語(yǔ)音信息,還可以利用未來(lái)的語(yǔ)音信息,可以進(jìn)行更加準(zhǔn)確的決策;CTC使得訓(xùn)練過(guò)程無(wú)需幀級(jí)別的標(biāo)注,實(shí)現(xiàn)有效的“端對(duì)端”訓(xùn)練?!   D2:

5、基于LSTMRNN的主流聲學(xué)模型框架  目前,國(guó)際國(guó)內(nèi)已經(jīng)有不少學(xué)術(shù)或工業(yè)機(jī)構(gòu)掌握了RNN模型,并在上述某個(gè)或多個(gè)技術(shù)點(diǎn)進(jìn)行研究。然而,上述各個(gè)技術(shù)點(diǎn)單獨(dú)研究時(shí)一般可以獲得較好的結(jié)果,但是如果想將這些技術(shù)點(diǎn)融合在一起的時(shí)候,則會(huì)碰到一些問(wèn)題。例如,多個(gè)技術(shù)結(jié)合在一起的提升幅度會(huì)比各個(gè)技術(shù)點(diǎn)幅度的疊加要小。又例如,傳統(tǒng)的雙向RNN方案,理論上需要看到語(yǔ)音的結(jié)束(即所有的未來(lái)信息),才能成功的應(yīng)用未來(lái)信息來(lái)獲得提升,因此只適合處理離線任務(wù),而對(duì)于要求即時(shí)響應(yīng)的在線任務(wù)(例如語(yǔ)音輸入法)則往往會(huì)帶來(lái)3-5s的硬延遲,這對(duì)于在線任務(wù)是不可接受的。再者,RNN對(duì)上下文相關(guān)性的擬合較強(qiáng),相對(duì)于D

6、NN更容易陷入過(guò)擬合的問(wèn)題,容易因?yàn)橛?xùn)練數(shù)據(jù)的局部不魯棒現(xiàn)象而帶來(lái)額外的異常識(shí)別錯(cuò)誤。最后,由于RNN具有比DNN更加復(fù)雜的結(jié)構(gòu),給海量數(shù)據(jù)下的RNN模型訓(xùn)練帶來(lái)了更大的挑戰(zhàn)。  鑒于上述問(wèn)題,科大訊飛發(fā)明了一種名為前饋型序列記憶網(wǎng)絡(luò)FSMN(Feed-forwardSequenTIalMemoryNetwork)的新框架。在這個(gè)框架中,可以把上述幾點(diǎn)很好的融合,同時(shí)各個(gè)技術(shù)點(diǎn)對(duì)效果的提升可以獲得疊加。值得一提的是,我們?cè)谶@個(gè)系統(tǒng)中創(chuàng)造性提出的FSMN結(jié)構(gòu),采用非循環(huán)的前饋結(jié)構(gòu),在只需要180ms延遲下,就達(dá)到了和雙向LSTMRNN相當(dāng)?shù)男ЧO旅孀屛覀儊?lái)具體看下它的構(gòu)成?!   D

7、3:FSMN結(jié)構(gòu)示意圖    圖4:FSMN中隱層記憶塊的時(shí)序展開(kāi)示意圖(左右各看一幀)  圖3即為FSMN的結(jié)構(gòu)示意圖,相比傳統(tǒng)的DNN,我們?cè)陔[層旁增加了一個(gè)稱為“記憶塊”的模塊,用于存儲(chǔ)對(duì)判斷當(dāng)前語(yǔ)音幀有用的歷史信息和未來(lái)信息。圖4畫(huà)出了雙向FSMN中記憶塊左右各記憶一幀語(yǔ)音信息(在實(shí)際任務(wù)中,可根據(jù)任務(wù)需要,人工調(diào)整所需記憶的歷史和未來(lái)信息長(zhǎng)度)的時(shí)序展開(kāi)結(jié)構(gòu)?! 膱D中我們可以看出,不同于傳統(tǒng)的基于循環(huán)反饋的RNN,F(xiàn)SMN記憶塊的記憶功能是使用

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。