英漢雙語自動對齊混合算法

英漢雙語自動對齊混合算法

ID:5277902

大?。?03.35 KB

頁數(shù):7頁

時間:2017-12-07

英漢雙語自動對齊混合算法_第1頁
英漢雙語自動對齊混合算法_第2頁
英漢雙語自動對齊混合算法_第3頁
英漢雙語自動對齊混合算法_第4頁
英漢雙語自動對齊混合算法_第5頁
資源描述:

《英漢雙語自動對齊混合算法》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、英漢雙語自動對齊混合算法周威萬康劉志杰創(chuàng)新未來電腦有限公司北京海淀區(qū)萬泉莊路15號100089Email:zhouncfc.creative.comwan_Iwg垂fc.creative.oomzhi_jiec_icfc.creative.com摘要:本文根據(jù)現(xiàn)有對齊算法,提出了二次對齊思想,并重新修改了句子對齊評分規(guī)律,更好的把基于長度和基于詞典的算法結(jié)合起來,同時優(yōu)化了一些輔助算法,使計算效率和實用效果都達(dá)到了一個很好的水平。關(guān)鍵詞:雙語對齊、基于長度、基于詞典AutomaticAlignmentofEnglishandChineseParale

2、lCorporaZhouWeiWanKangLiuZhijieCREATIVEFUTURECOMPUPERCO工TDBEIJING100089Email:zhou,weina.cfc.creative.comwan}kan-(&cfc.creative.comzhiiie@cfc.creafve.comAbstract:Withreferencetotheexistedalignmentalgorithm,theauthorgivesomeideasofalignmenttwice,andmakealterationstoratingrulesfor

3、sentencealignmentsaswellascombiningsmootHythealgorithmsbasedrespectivelyonlengthandlexiconwhileoptimizingcertainauxiliaryalgorithmsimultaneously.HighereficiencyofcomputingandabetterendingbenefitfromtheabovehenceforthKeywords:bilingualalignment,basedonlengthbasedonlexicon1引言雙語語料

4、庫是存放兩種語意對齊的語料資源和信息的倉庫,是機器翻譯和多語言處理的重要資源,在語言研究的許多領(lǐng)域產(chǎn)生愈來愈大的影響。目前雙語語料庫被廣泛的應(yīng)用在機器翻譯、跨語言信息檢索等領(lǐng)域。創(chuàng)新未來電腦有限公司研究此項目,主要是用來建造英漢雙語語料庫,用于公司研發(fā)的項目漢神輔助翻譯系統(tǒng)(HansVisionTM[11]),目前,HansVisionTM已經(jīng)在我公司本地化產(chǎn)品中使用。國內(nèi)外很多機構(gòu)致力于語料庫的建設(shè)研究,就我們能看到的資料來看,加拿大的議會會議錄(CanadianHansards)就是非常著名的英法雙語語料庫【1][21,許多最初的基于雙語語料庫的

5、研究都是在該語料庫基礎(chǔ)上進行的。對于漢外雙語語料庫建設(shè)及其研究,香港科技大學(xué)收集和-274-加工了香港立法委員會的會議記錄【3],形成漢英雙語語料庫。此外,北京大學(xué)、東北大學(xué)、哈爾濱工業(yè)大學(xué)的研究人元夜建立了一定規(guī)模的漢英雙語語料庫。但目前漢外雙語語料庫規(guī)模都比較小,從而影響了雙語語料庫的研究。雙語對齊按照對齊單位由大到小通常可分為文件級、段落級和句子級以及子句級,實現(xiàn)各個層次的對齊是雙語語料庫建設(shè)的一項重要內(nèi)容。前一層次是后一層次對齊的前提。目前文件級對齊方面的研究還很少。大多認(rèn)為文件級對齊很容易獲得,在小規(guī)模的語料庫建設(shè)中用處不大,但是在大規(guī)模的

6、語料庫建設(shè)中文件級的對齊工具還是很必要的,可以擴大語料庫的規(guī)模和提高建庫效率,可以充分利用己有中英文資源。句子對齊現(xiàn)有方法基本可以分為三類[9]:基于長度的方法:依據(jù)是兩種語言譯文的長度滿足一定比例關(guān)系.(加拿大Brown[I】和Gale[2]在英法雙語的加拿大議會會議錄上取得了較好的對齊效果;清華大學(xué)和哈爾濱工業(yè)大學(xué)的研究人員分別將基于長度的方法應(yīng)用于MicrosoftNT3.5Server安裝指南和法律文獻(xiàn)的漢英雙語句子對齊,獲得了試驗結(jié)果)基于雙語字典的方法:根據(jù)雙語單詞的分布信息和字典翻譯模型進行了句子對齊。(錢麗萍[5]直接利用雙語詞典對大

7、學(xué)英語教材做了句子對齊,也取得了令人滿意的效果)混合方法:基于長度的對齊方法模型簡單,獨立于語言知識和其他外部資源,但容易造成錯誤蔓延?;陔p語字典的對齊方法相對可靠精確,但計算相當(dāng)復(fù)雜。將這兩種方法結(jié)合起來進行句子對齊,互補優(yōu)勢。本文主要討論混合方法的漢英雙語句子級對齊技術(shù),并把句子對齊思想應(yīng)用到文件對齊中.本文首先提出了新的混合句子對齊算法,采用基于雙語詞典的句子對齊方法為主,基于長度方法為輔對漢英文件進行句子對齊,并對如何提高對齊精度做了進一步的研究和探討,同時介紹了一些應(yīng)用到的基礎(chǔ)算法.新的算法不同于我們收集到的已發(fā)表的對齊方法,在評價函數(shù)設(shè)

8、計、雙語詞典資源整理上也存在不同之處。最后文章講述了基于句子對齊的評分原則的文件對齊方法,采用局部最優(yōu)策略,

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。