資源描述:
《雙語語料庫段落重組對齊方法研究》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、雙語語料庫段落重組對齊方法研究李維剛劉挺王震李生哈爾濱工業(yè)大學計算機學院信息檢索研究室哈爾濱150001E-mail:{lee,tliu,wangzhen,ls}@ir.hit.edu.cn摘要:網(wǎng)絡上存在的大量雙語資源,給構建大規(guī)模雙語語料庫提供了可能。雙語對齊作為語料庫加工過程中的關鍵技術,已經引起研究者的高度重視。針對目前可收集到的雙語資源大都沒有做到段落對齊,本文結合基于句子長度和基于詞典的兩種經典對齊算法思想,充分利用雙語文本中的句子在整個文本中的位置信息,在(1:1)型句珠里選取錨點,并根據(jù)雙語文本特征引入一部雙語詞典進
2、行校驗,從而獲得分段的錨點,實現(xiàn)通用的段落重組對齊。關鍵詞:雙語語料庫,段落重組對齊,錨點,匹配ResearchofParagraphRealignmentofBilingualCorpusLiWeigangLiuTingWangzhenLiShengInformationRetrievalLaboratoryHarbinInstituteofTechnology,Harbin150001(lee,tliu,wangzhen,ls@ir.hit.edu.cn)Abstract:Largeamountofbilingualresour
3、ceontheinternetbringtheprobabilityofbuildingalargescaleofbilingualcorpus.Asthekeytechnologyduringthecourseofbuildingthecorpus,bilingualalignmenttechnologyisgrowinghighrecognition.Facingthesituationthatmostofbilingualresourceattainedontheinternetisalignedinparagraph,par
4、agraphrealignmentisnecessary.Combininglength-basedmethodwithlexicon-basedmethod,makingfulluseofthelocationinformationofeachsentenceinwholetext,wechoosetheanchorsamongthe1-for-1beadsaccordingtheresultofdictionarycheckandachievethegoalofgeneralparagraphrealignment.Keywor
5、ds:bilingualcorpus,paragraphrealignment,anchor,match1.引言雙語語料庫是一種包含有兩種語言互譯信息的特殊的語料庫。它能夠提供兩種語言之間豐富的匹配信息,在翻譯知識的獲取、雙語詞典的建立、基于實例的機器翻譯、詞義消歧等[1]領域有著重要的應用價值。大規(guī)模雙語語料庫的建設是進行基于語料庫研究的基礎,它包括語料庫的設計、語料的[2]采集、錄入和管理等方面。而目前互聯(lián)網(wǎng)上存在著豐富的雙語資源,為短期內建成大規(guī)模的雙語語料庫提供了可能。因此對網(wǎng)上可收集到的雙語互譯文本進行加工成為一個非常有意
6、義的課題。對齊技術是加工雙語文本的核心。所謂對齊就是從互譯的不同語言文本中找出互譯片斷的過程,雙語語料庫對齊可分為段落、句子、短語、單詞等不同級別的加工深度,語料庫的加工深度決定了語料庫所能提供的知識的粒度。早在90年代初期,國外就有人開始這一方面[3][4][5]的工作,主要有Brown,Gale和Chen等,他們的方法主要歸結為兩類,基于長度的對齊方法和基于詞匯的對齊方法,Brown在對Hansard語料庫進行對齊時,引入了錨點(anchor)的概念,認為錨點的作用就是將整個語料庫分成一些小的對齊片斷;同時把每一對相對應的[6]
7、[7]句子稱作句珠(Sentencebead)。針對漢英雙語對齊,國內的劉昕,錢麗萍等人也進行了一些改進的對齊算法研究。目前很多學者在進行雙語對齊研究時,大多數(shù)都是在段落對齊的基礎上進行句子對齊的研究。然而目前網(wǎng)絡上的大量雙語文本基本都沒有做到段落對齊,而段落對齊是進行后續(xù)的句子對齊、結構對齊等更深級別的對齊加工的基礎,因此針對這種真實的文本資源,必須首先進行段落對齊。[1]文獻提出了一個將文本依照翻譯塊(translationblock)重新進行分段的方法,它通過漢英詞匯對之間的特征比較,首先對漢語句子進行分詞,找到可以用于漢英語
8、料庫分段的錨點詞匯對,在此基礎上,通過錨點詞所在句子的匹配獲得錨點句子對來進行分段。但是這種方法僅適合于具有較多高頻固定詞的雙語文本的分段對齊,對于只具有較少高頻固定詞的雙語文本,這種方法就會遇到數(shù)據(jù)稀疏問題導致分段太粗及準確率下降。