資源描述:
《英漢雙語自動對齊混合算法》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、英漢雙語自動對齊混合算法周威萬康劉志杰創(chuàng)新未來電腦有限公司北京海淀區(qū)萬泉莊路15號100089Email:zhouncfc.creative.comwan_Iwg垂fc.creative.oomzhi_jiec_icfc.creative.com摘要:本文根據(jù)現(xiàn)有對齊算法,提出了二次對齊思想,并重新修改了句子對齊評分規(guī)律,更好的把基于長度和基于詞典的算法結(jié)合起來,同時優(yōu)化了一些輔助算法,使計算效率和實用效果都達(dá)到了一個很好的水平。關(guān)鍵詞:雙語對齊、基于長度、基于詞典AutomaticAlignmentofEnglishandChineseParale
2、lCorporaZhouWeiWanKangLiuZhijieCREATIVEFUTURECOMPUPERCO工TDBEIJING100089Email:zhou,weina.cfc.creative.comwan}kan-(&cfc.creative.comzhiiie@cfc.creafve.comAbstract:Withreferencetotheexistedalignmentalgorithm,theauthorgivesomeideasofalignmenttwice,andmakealterationstoratingrulesfor
3、sentencealignmentsaswellascombiningsmootHythealgorithmsbasedrespectivelyonlengthandlexiconwhileoptimizingcertainauxiliaryalgorithmsimultaneously.HighereficiencyofcomputingandabetterendingbenefitfromtheabovehenceforthKeywords:bilingualalignment,basedonlengthbasedonlexicon1引言雙語語料
4、庫是存放兩種語意對齊的語料資源和信息的倉庫,是機器翻譯和多語言處理的重要資源,在語言研究的許多領(lǐng)域產(chǎn)生愈來愈大的影響。目前雙語語料庫被廣泛的應(yīng)用在機器翻譯、跨語言信息檢索等領(lǐng)域。創(chuàng)新未來電腦有限公司研究此項目,主要是用來建造英漢雙語語料庫,用于公司研發(fā)的項目漢神輔助翻譯系統(tǒng)(HansVisionTM[11]),目前,HansVisionTM已經(jīng)在我公司本地化產(chǎn)品中使用。國內(nèi)外很多機構(gòu)致力于語料庫的建設(shè)研究,就我們能看到的資料來看,加拿大的議會會議錄(CanadianHansards)就是非常著名的英法雙語語料庫【1][21,許多最初的基于雙語語料庫的
5、研究都是在該語料庫基礎(chǔ)上進行的。對于漢外雙語語料庫建設(shè)及其研究,香港科技大學(xué)收集和-274-加工了香港立法委員會的會議記錄【3],形成漢英雙語語料庫。此外,北京大學(xué)、東北大學(xué)、哈爾濱工業(yè)大學(xué)的研究人元夜建立了一定規(guī)模的漢英雙語語料庫。但目前漢外雙語語料庫規(guī)模都比較小,從而影響了雙語語料庫的研究。雙語對齊按照對齊單位由大到小通常可分為文件級、段落級和句子級以及子句級,實現(xiàn)各個層次的對齊是雙語語料庫建設(shè)的一項重要內(nèi)容。前一層次是后一層次對齊的前提。目前文件級對齊方面的研究還很少。大多認(rèn)為文件級對齊很容易獲得,在小規(guī)模的語料庫建設(shè)中用處不大,但是在大規(guī)模的
6、語料庫建設(shè)中文件級的對齊工具還是很必要的,可以擴大語料庫的規(guī)模和提高建庫效率,可以充分利用己有中英文資源。句子對齊現(xiàn)有方法基本可以分為三類[9]:基于長度的方法:依據(jù)是兩種語言譯文的長度滿足一定比例關(guān)系.(加拿大Brown[I】和Gale[2]在英法雙語的加拿大議會會議錄上取得了較好的對齊效果;清華大學(xué)和哈爾濱工業(yè)大學(xué)的研究人員分別將基于長度的方法應(yīng)用于MicrosoftNT3.5Server安裝指南和法律文獻(xiàn)的漢英雙語句子對齊,獲得了試驗結(jié)果)基于雙語字典的方法:根據(jù)雙語單詞的分布信息和字典翻譯模型進行了句子對齊。(錢麗萍[5]直接利用雙語詞典對大
7、學(xué)英語教材做了句子對齊,也取得了令人滿意的效果)混合方法:基于長度的對齊方法模型簡單,獨立于語言知識和其他外部資源,但容易造成錯誤蔓延?;陔p語字典的對齊方法相對可靠精確,但計算相當(dāng)復(fù)雜。將這兩種方法結(jié)合起來進行句子對齊,互補優(yōu)勢。本文主要討論混合方法的漢英雙語句子級對齊技術(shù),并把句子對齊思想應(yīng)用到文件對齊中.本文首先提出了新的混合句子對齊算法,采用基于雙語詞典的句子對齊方法為主,基于長度方法為輔對漢英文件進行句子對齊,并對如何提高對齊精度做了進一步的研究和探討,同時介紹了一些應(yīng)用到的基礎(chǔ)算法.新的算法不同于我們收集到的已發(fā)表的對齊方法,在評價函數(shù)設(shè)
8、計、雙語詞典資源整理上也存在不同之處。最后文章講述了基于句子對齊的評分原則的文件對齊方法,采用局部最優(yōu)策略,