資源描述:
《統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中傳統(tǒng)詞典的應(yīng)用研究.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、1統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中傳統(tǒng)詞典的應(yīng)用研究曹杰任志祥呂雅娟劉群中國科學(xué)院計(jì)算技術(shù)研究所,中國科學(xué)院智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京,100190E-mail:{caojie,renzhixiang,lvyajuan,liuqun}@ict.ac.cn摘要:詞典是翻譯系統(tǒng)中的重要資源,本文研究了將傳統(tǒng)詞典應(yīng)用在統(tǒng)計(jì)機(jī)器翻譯中的方法,包括在訓(xùn)練部分詞典加權(quán)到語料中使用和解碼部分引入詞典特征融入log-linear模型來使用。本文還提出了一種詞典匹配算法,使得實(shí)用的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)具有動(dòng)態(tài)添加新詞的功能。實(shí)驗(yàn)表明,訓(xùn)練階段中詞典的主要作用是緩解數(shù)據(jù)稀疏問題;解碼部分
2、詞典特征的引入使系統(tǒng)更加偏向于選擇含有詞典數(shù)目更多的譯文。詞典匹配算法的引入很好的改善了實(shí)用翻譯系統(tǒng)中的用戶體驗(yàn),并能進(jìn)一步提高翻譯質(zhì)量。關(guān)鍵詞:統(tǒng)計(jì)機(jī)器翻譯、詞典、自然語言理解、詞典特征TheApplicationofTraditionalDictionaryinStatisticalMachineTranslationJieCao,ZhiXiangRen,YajuanLüandQunLiuKeyLaboratoryofIntelligentInformationProcessing,InstituteofComputingTechnology,Ch
3、ineseAcademyofSciences,Beijing100080,ChinaE-mail:{caojie,renzhixiang,lvyajuan,liuqun}@ict.ac.cnAbstract:ThispaperdescribesseveralwaysofusingdictionariesinStatisticalMachineTranslation.Thedictionariescanbeaddedtobilingualcorporawithdifferentweightsintraining,andalsocanbeusedasafe
4、atureindecoding.Inaddition,wedescribeaword-matchingalgorithm,whichenabletheMTsystemtotranslatenewwordsaddedbyusers.Experimentshaveprovedthatintraining,dictionaries’contributionmostlyliesinsolvingtheproblemofdatasparse.Somephrasescan’tbelearnedbybilingualcorporamayobtaintranslati
5、onsfromdictionaries.Furthermore,dictionaryfeaturecanincreasetheprobabilitiesofthosetranslationswhichhavemoreentriesindictionary.Theword-matchingalgorithmimprovestranslationquality,besidesobtainsgoodfeedbacksfromusers.KeyWords:statisticalmachinetranslation,traditionaldictionary,n
6、aturallanguageprocessing,dictionaryfeature1.引言近年來,統(tǒng)計(jì)機(jī)器翻譯的研究取得長足進(jìn)展,譯文質(zhì)量不斷提高,而對(duì)于詞典這一傳統(tǒng)機(jī)器翻譯系統(tǒng)常用資源的使用卻沒有太多關(guān)注,本文探討了將傳統(tǒng)詞典應(yīng)用于統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中的方法。詞典可以分為普通詞典和領(lǐng)域詞典兩類,普通詞典一般包含常用詞語及譯文,與具體領(lǐng)1本研究得到國家自然科學(xué)基金課題60873167,60603095和60736014的資助域無關(guān),而領(lǐng)域詞典包含的是與某個(gè)專業(yè)領(lǐng)域相關(guān)的詞典,比如“蛇舌草”在普通詞典中一般沒有譯項(xiàng),而在傳統(tǒng)中藥領(lǐng)域詞典中被翻譯為“Hed
7、yotis”,而“阿拉伯”在傳統(tǒng)中藥領(lǐng)域的詞典中沒有譯項(xiàng),而在普通詞典中被譯為“Arab”。在訓(xùn)練部分,本文嘗試將普通詞典、領(lǐng)域詞典與雙語語料一起進(jìn)行詞對(duì)齊,通過修改2GIZA++的輸入?yún)?shù)給普通詞典、領(lǐng)域詞典和雙語語料指定不同的權(quán)重。在解碼部分,本文嘗試將詞典作為特征融入到[Och,2002]提出的log-linear模型中。以譯文中含有的包含在詞典中的詞條數(shù)目作為一個(gè)新的特征使用,用最小錯(cuò)誤率[Och,2003]方法訓(xùn)練參數(shù)。為適應(yīng)用戶動(dòng)態(tài)添加新詞的需求,我們?cè)O(shè)計(jì)了一種詞典匹配算法,允許詞典的強(qiáng)制匹配與非強(qiáng)制匹配。需要強(qiáng)制匹配的詞在詞典中譯文的準(zhǔn)確
8、性高,用戶認(rèn)為必須要翻譯為詞典譯項(xiàng);非強(qiáng)制匹配詞在詞典中的翻譯不一定最好,用戶允許其翻譯為其他