資源描述:
《基于htk漢語連續(xù)語音識別研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、中國科學(xué)技術(shù)大學(xué)碩士學(xué)位論文基于HTK的漢語連續(xù)語音識別研究作者姓名:學(xué)科專業(yè):導(dǎo)師姓名:完成時(shí)間:何金鑫模式識別與智能系統(tǒng)關(guān)勝曉副教授二。一三年五月二日豸f毗UniversityofScienceandTechnologyofChinaAdissertationformaster’SdegreeStudyonChineseContinuousSpeechRecognitionBasedonHTKAuthor’SName"JinxinHespeciality:Pattemrecognitionandintelligentsystem一,一Supervisor:Ass
2、ociateProf.ShenxiaoGuan11●1’上.mlstmdtlme:May2m,2013中國科學(xué)技術(shù)大學(xué)學(xué)位論文原創(chuàng)性聲明本人聲明所呈交的學(xué)位論文,是本人在導(dǎo)師指導(dǎo)下進(jìn)行研究工作所取得的成果。除已特別加以標(biāo)注和致謝的地方外,論文中不包含任何他人已經(jīng)發(fā)表或撰寫過的研究成果。與我--N二II作的同志對本研究所做的貢獻(xiàn)均已在論文中作了明確的說明。作者簽名:彳擻簽字日期:絲叢!絲:雛中國科學(xué)技術(shù)大學(xué)學(xué)位論文授權(quán)使用聲明作為申請學(xué)位的條件之一,學(xué)位論文著作權(quán)擁有者授權(quán)中國科學(xué)技術(shù)大學(xué)擁有學(xué)位論文的部分使用權(quán),即:學(xué)校有權(quán)按有關(guān)規(guī)定向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)
3、印件和電子版,允許論文被查閱和借閱,可以將學(xué)位論文編入《中國學(xué)位論文全文數(shù)據(jù)庫》等有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。本人提交的電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相一致。保密的學(xué)位論文在解密后也遵守此規(guī)定。啦仫開口保密(——年)作者簽名:么勇益龐導(dǎo)師簽名:簽字日期:絲廛!魚!生簽字日期:2望!至:笸顰摘要自動(dòng)語音識別(ASR,AutomaticSpeechRecognition)是通過機(jī)器識別和理解過程,把人類的語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。語音識別技術(shù)是一門綜合技術(shù),融合聲學(xué)、語音學(xué)、語義學(xué)、信號處理、心理學(xué),經(jīng)過近60年
4、的發(fā)展,已經(jīng)取得了很大的進(jìn)展。目前在特定領(lǐng)域已經(jīng)能夠達(dá)到應(yīng)用的程度,但是要實(shí)現(xiàn)大詞匯量連續(xù)語音識別還有很多難點(diǎn)有待攻克,尤其是在說話人無關(guān)、高噪音的環(huán)境下,識別準(zhǔn)確度明顯下降。本文主要研究漢語連續(xù)語音識別中涉及的關(guān)鍵技術(shù)。建立語音識別系統(tǒng)的基本流程,語音信號處理的基本理論,著重研究了端點(diǎn)檢測方法、特征提取原理及方法。然后分別從兩個(gè)角度闡述漢語連續(xù)語音識別過程:模式識別角度和基于HTK的軟件識別過程。首先,研究了漢語語音的特點(diǎn)。漢語屬于東方語系,在字形、發(fā)音方式方面與英語等西歐語系差別很大,因此要建立高質(zhì)量的語音識別系統(tǒng)需要對漢語語音的特點(diǎn)進(jìn)行深入研究。本文是基于隱馬
5、爾科夫模型(HMM)的連續(xù)語音識別,特征向量采用美爾倒譜系數(shù)(MFCC),基于上下文相關(guān)的三音素HUM,結(jié)合漢語特有的聲韻母加聲調(diào)的發(fā)音方式等一系列技術(shù),利用隱馬爾科夫模型工具箱(HTK)構(gòu)建了實(shí)驗(yàn)平臺。設(shè)計(jì)實(shí)驗(yàn)比較了不同高斯混合度(Mix)和不同音素模型下系統(tǒng)的表現(xiàn)性能。實(shí)驗(yàn)結(jié)果表明,采用上下文相關(guān)三音素模型識別精度達(dá)到98.00%,識別效果明顯。其次,利用HTK工具包,設(shè)計(jì)實(shí)現(xiàn)了漢語連續(xù)語音識別模擬系統(tǒng)。本文介紹了HTK軟件包架構(gòu)及提供的模型分析工具,利用其接口應(yīng)用程序ATK(AnApplicationToolkitforHTK)實(shí)現(xiàn)漢語連續(xù)識別系統(tǒng)并進(jìn)行相關(guān)測
6、試。關(guān)鍵詞:語音識別HTK隱馬爾科夫模型決策樹狀態(tài)綁定三音素模型IIABSTRACTAutomaticspeechrecognition(ASR)isatechnologywhichtralls南rIllshu曲ntsmtⅦalspeechintocorrespondingtextorcommandbyidertifyingandunderstandingthecontentofthediscourse.Ifsacomplexart沁砌噸acoustics,phonetics,se艘Imlcs,signalprocessing,psychology.Ithasobt
7、ainedagreatdevelopmentduringthepast60years.Currently,it'spracticableinspecializedfield.Therefore,there鋤℃stillsomedifficultiestobetreated.Undertheenvironmentofperson-協(xié)depeI】dem,∞isMtherecognitionaceuracydeclinerapidly.Inthethesis,theamhordoessomeresearchinthecriticaltechnologYofcontin