資源描述:
《基于主動學(xué)習(xí)漢語韻律短語預(yù)測的研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、天津師范大學(xué)碩士學(xué)位論文摘要隨著計(jì)算機(jī)智能化的飛速發(fā)展,語音合成技術(shù)越來越廣泛的應(yīng)用到人們的生活中。提高語音合成的自然度是語音合成技術(shù)的一個(gè)重要發(fā)展方向,而韻律結(jié)構(gòu)預(yù)測的準(zhǔn)確度不高,是提高合成語音自然度的一大障礙。本文調(diào)研了漢語韻律結(jié)構(gòu)預(yù)測研究的歷史和現(xiàn)狀,分析并總結(jié)了目前漢語韻律結(jié)構(gòu)預(yù)測采用的相關(guān)技術(shù)。與其他各種機(jī)器學(xué)習(xí)問題類似,漢語韻律短語的預(yù)測也需要一定數(shù)量的已標(biāo)注數(shù)據(jù)用作訓(xùn)練數(shù)據(jù),這就需要大量的時(shí)間和人力放在韻律短語的標(biāo)注上,這也是傳統(tǒng)分類算法所共有的問題。對此,近年來產(chǎn)生了一種新的思路,就是通過綜合使用已標(biāo)注數(shù)據(jù)和未標(biāo)注
2、數(shù)據(jù),聯(lián)合進(jìn)行訓(xùn)練,以彌補(bǔ)標(biāo)注數(shù)據(jù)不足所帶來的影響,從而可以大大降低人工標(biāo)注工作量。半監(jiān)督學(xué)習(xí)、主動學(xué)習(xí)等方法,都是由此思路而產(chǎn)生的?;诖耍疚膶⒒跅l件隨機(jī)場模型的主動學(xué)習(xí)方法用于漢語韻律短語預(yù)測,并實(shí)現(xiàn)了一個(gè)漢語韻律短語邊界預(yù)測及標(biāo)注的原型系統(tǒng)。本文實(shí)現(xiàn)的漢語韻律短語邊界標(biāo)注及預(yù)測的原型系統(tǒng)采用人機(jī)交互的方式,基于部分標(biāo)注的訓(xùn)練集由計(jì)算機(jī)選出最佳樣例由人工進(jìn)行標(biāo)注,進(jìn)而更新已標(biāo)注的訓(xùn)練集,依此迭代直到訓(xùn)練出令用戶滿意的模型。此外,本文通過實(shí)驗(yàn)對比證明應(yīng)用該方法可以較好地解決漢語韻律短語預(yù)測和標(biāo)注的主動學(xué)習(xí)問題,在降低人工工作
3、量,利用部分已標(biāo)注數(shù)據(jù)的基礎(chǔ)上,仍能較好地達(dá)到漢語韻律短語邊界預(yù)測的目的。關(guān)鍵詞:漢語韻律短語,條件隨機(jī)場模型,主動學(xué)習(xí)天津師范大學(xué)碩士學(xué)位論文AbstractWiththerapiddevelopmentofcomputerintelligence,speechsynthesistechnologybecomesmorewidelyappliedtopeople'slives.Speechsynthesisnaturalnessisanimportantdirectionofdevelopmentofspeechsynthesi
4、stechnology,andtheaccuracyoftheprosodystructurepredictionisnothigh,whichisamajorobstacletoimprovethenaturalnessofsyntheticspeech.BasedonthehistoryandcurrentresearchsituationoftheChineseprosodicstructureprediction,thispapersummarizesandanalyzesthecurrenttechnologyusedi
5、nChineseprosodicstructureprediction.Similartoothermachinelearningmethods,thepredictionofChineseprosodicphraserequiresacertainamountoflabeleddataastrainingdata,sothatyouneedtospendalotoftimeandmanpoweronthelabelingofprosodicphrase,andthisisthecommonproblemstotraditiona
6、lclassificationalgorithms.Inrecentyears,thereisanewmethodwhichintegratesthelabeleddataandtheunlabeleddatawhentrainingdata,toovercomethelackoflabeleddataandtogreatlyreducetheworkloadofthemanuallabeling.Semi-supervisedlearningmethodandactivelearningmethodwerebothgenerat
7、edbasedonthisidea.Inthispaper,theauthorusesanactivelearningmethodbasedonCRFsandrealizesaprototypesystemforthepredictionandannotationofChineseprosodicphraseboundaries.Theprototypesysteminthispaperuseshuman-computerinteraction,beginningwithpartiallabeledtrainingdata,mak
8、ingthecomputerselectthebestsampletoasktheannotatortolabelandupdatetheinitialtrainingset.Experimentsontheactivelearningmethod