統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中傳統(tǒng)詞典的應(yīng)用研究.pdf

統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中傳統(tǒng)詞典的應(yīng)用研究.pdf

ID:52287797

大?。?83.48 KB

頁數(shù):9頁

時(shí)間:2020-03-26

統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中傳統(tǒng)詞典的應(yīng)用研究.pdf_第1頁
統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中傳統(tǒng)詞典的應(yīng)用研究.pdf_第2頁
統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中傳統(tǒng)詞典的應(yīng)用研究.pdf_第3頁
統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中傳統(tǒng)詞典的應(yīng)用研究.pdf_第4頁
統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中傳統(tǒng)詞典的應(yīng)用研究.pdf_第5頁
資源描述:

《統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中傳統(tǒng)詞典的應(yīng)用研究.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、1統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中傳統(tǒng)詞典的應(yīng)用研究曹杰任志祥呂雅娟劉群中國科學(xué)院計(jì)算技術(shù)研究所,中國科學(xué)院智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京,100190E-mail:{caojie,renzhixiang,lvyajuan,liuqun}@ict.ac.cn摘要:詞典是翻譯系統(tǒng)中的重要資源,本文研究了將傳統(tǒng)詞典應(yīng)用在統(tǒng)計(jì)機(jī)器翻譯中的方法,包括在訓(xùn)練部分詞典加權(quán)到語料中使用和解碼部分引入詞典特征融入log-linear模型來使用。本文還提出了一種詞典匹配算法,使得實(shí)用的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)具有動(dòng)態(tài)添加新詞的功能。實(shí)驗(yàn)表明,訓(xùn)練階段中詞典的主要作用是緩解數(shù)據(jù)稀疏問題;解碼部分

2、詞典特征的引入使系統(tǒng)更加偏向于選擇含有詞典數(shù)目更多的譯文。詞典匹配算法的引入很好的改善了實(shí)用翻譯系統(tǒng)中的用戶體驗(yàn),并能進(jìn)一步提高翻譯質(zhì)量。關(guān)鍵詞:統(tǒng)計(jì)機(jī)器翻譯、詞典、自然語言理解、詞典特征TheApplicationofTraditionalDictionaryinStatisticalMachineTranslationJieCao,ZhiXiangRen,YajuanLüandQunLiuKeyLaboratoryofIntelligentInformationProcessing,InstituteofComputingTechnology,Ch

3、ineseAcademyofSciences,Beijing100080,ChinaE-mail:{caojie,renzhixiang,lvyajuan,liuqun}@ict.ac.cnAbstract:ThispaperdescribesseveralwaysofusingdictionariesinStatisticalMachineTranslation.Thedictionariescanbeaddedtobilingualcorporawithdifferentweightsintraining,andalsocanbeusedasafe

4、atureindecoding.Inaddition,wedescribeaword-matchingalgorithm,whichenabletheMTsystemtotranslatenewwordsaddedbyusers.Experimentshaveprovedthatintraining,dictionaries’contributionmostlyliesinsolvingtheproblemofdatasparse.Somephrasescan’tbelearnedbybilingualcorporamayobtaintranslati

5、onsfromdictionaries.Furthermore,dictionaryfeaturecanincreasetheprobabilitiesofthosetranslationswhichhavemoreentriesindictionary.Theword-matchingalgorithmimprovestranslationquality,besidesobtainsgoodfeedbacksfromusers.KeyWords:statisticalmachinetranslation,traditionaldictionary,n

6、aturallanguageprocessing,dictionaryfeature1.引言近年來,統(tǒng)計(jì)機(jī)器翻譯的研究取得長足進(jìn)展,譯文質(zhì)量不斷提高,而對(duì)于詞典這一傳統(tǒng)機(jī)器翻譯系統(tǒng)常用資源的使用卻沒有太多關(guān)注,本文探討了將傳統(tǒng)詞典應(yīng)用于統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中的方法。詞典可以分為普通詞典和領(lǐng)域詞典兩類,普通詞典一般包含常用詞語及譯文,與具體領(lǐng)1本研究得到國家自然科學(xué)基金課題60873167,60603095和60736014的資助域無關(guān),而領(lǐng)域詞典包含的是與某個(gè)專業(yè)領(lǐng)域相關(guān)的詞典,比如“蛇舌草”在普通詞典中一般沒有譯項(xiàng),而在傳統(tǒng)中藥領(lǐng)域詞典中被翻譯為“Hed

7、yotis”,而“阿拉伯”在傳統(tǒng)中藥領(lǐng)域的詞典中沒有譯項(xiàng),而在普通詞典中被譯為“Arab”。在訓(xùn)練部分,本文嘗試將普通詞典、領(lǐng)域詞典與雙語語料一起進(jìn)行詞對(duì)齊,通過修改2GIZA++的輸入?yún)?shù)給普通詞典、領(lǐng)域詞典和雙語語料指定不同的權(quán)重。在解碼部分,本文嘗試將詞典作為特征融入到[Och,2002]提出的log-linear模型中。以譯文中含有的包含在詞典中的詞條數(shù)目作為一個(gè)新的特征使用,用最小錯(cuò)誤率[Och,2003]方法訓(xùn)練參數(shù)。為適應(yīng)用戶動(dòng)態(tài)添加新詞的需求,我們?cè)O(shè)計(jì)了一種詞典匹配算法,允許詞典的強(qiáng)制匹配與非強(qiáng)制匹配。需要強(qiáng)制匹配的詞在詞典中譯文的準(zhǔn)確

8、性高,用戶認(rèn)為必須要翻譯為詞典譯項(xiàng);非強(qiáng)制匹配詞在詞典中的翻譯不一定最好,用戶允許其翻譯為其他

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。