雙語語料庫段落重組對齊方法研究

      雙語語料庫段落重組對齊方法研究

      ID:40912662

      大?。?1.60 KB

      頁數(shù):7頁

      時間:2019-08-10

      雙語語料庫段落重組對齊方法研究_第1頁
      雙語語料庫段落重組對齊方法研究_第2頁
      雙語語料庫段落重組對齊方法研究_第3頁
      雙語語料庫段落重組對齊方法研究_第4頁
      雙語語料庫段落重組對齊方法研究_第5頁
      資源描述:

      《雙語語料庫段落重組對齊方法研究》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫

      1、雙語語料庫段落重組對齊方法研究李維剛劉挺王震李生哈爾濱工業(yè)大學計算機學院信息檢索研究室哈爾濱150001E-mail:{lee,tliu,wangzhen,ls}@ir.hit.edu.cn摘要:網(wǎng)絡上存在的大量雙語資源,給構建大規(guī)模雙語語料庫提供了可能。雙語對齊作為語料庫加工過程中的關鍵技術,已經引起研究者的高度重視。針對目前可收集到的雙語資源大都沒有做到段落對齊,本文結合基于句子長度和基于詞典的兩種經典對齊算法思想,充分利用雙語文本中的句子在整個文本中的位置信息,在(1:1)型句珠里選取錨點,并根據(jù)雙語文本特征引入一部雙語詞典進

      2、行校驗,從而獲得分段的錨點,實現(xiàn)通用的段落重組對齊。關鍵詞:雙語語料庫,段落重組對齊,錨點,匹配ResearchofParagraphRealignmentofBilingualCorpusLiWeigangLiuTingWangzhenLiShengInformationRetrievalLaboratoryHarbinInstituteofTechnology,Harbin150001(lee,tliu,wangzhen,ls@ir.hit.edu.cn)Abstract:Largeamountofbilingualresour

      3、ceontheinternetbringtheprobabilityofbuildingalargescaleofbilingualcorpus.Asthekeytechnologyduringthecourseofbuildingthecorpus,bilingualalignmenttechnologyisgrowinghighrecognition.Facingthesituationthatmostofbilingualresourceattainedontheinternetisalignedinparagraph,par

      4、agraphrealignmentisnecessary.Combininglength-basedmethodwithlexicon-basedmethod,makingfulluseofthelocationinformationofeachsentenceinwholetext,wechoosetheanchorsamongthe1-for-1beadsaccordingtheresultofdictionarycheckandachievethegoalofgeneralparagraphrealignment.Keywor

      5、ds:bilingualcorpus,paragraphrealignment,anchor,match1.引言雙語語料庫是一種包含有兩種語言互譯信息的特殊的語料庫。它能夠提供兩種語言之間豐富的匹配信息,在翻譯知識的獲取、雙語詞典的建立、基于實例的機器翻譯、詞義消歧等[1]領域有著重要的應用價值。大規(guī)模雙語語料庫的建設是進行基于語料庫研究的基礎,它包括語料庫的設計、語料的[2]采集、錄入和管理等方面。而目前互聯(lián)網(wǎng)上存在著豐富的雙語資源,為短期內建成大規(guī)模的雙語語料庫提供了可能。因此對網(wǎng)上可收集到的雙語互譯文本進行加工成為一個非常有意

      6、義的課題。對齊技術是加工雙語文本的核心。所謂對齊就是從互譯的不同語言文本中找出互譯片斷的過程,雙語語料庫對齊可分為段落、句子、短語、單詞等不同級別的加工深度,語料庫的加工深度決定了語料庫所能提供的知識的粒度。早在90年代初期,國外就有人開始這一方面[3][4][5]的工作,主要有Brown,Gale和Chen等,他們的方法主要歸結為兩類,基于長度的對齊方法和基于詞匯的對齊方法,Brown在對Hansard語料庫進行對齊時,引入了錨點(anchor)的概念,認為錨點的作用就是將整個語料庫分成一些小的對齊片斷;同時把每一對相對應的[6]

      7、[7]句子稱作句珠(Sentencebead)。針對漢英雙語對齊,國內的劉昕,錢麗萍等人也進行了一些改進的對齊算法研究。目前很多學者在進行雙語對齊研究時,大多數(shù)都是在段落對齊的基礎上進行句子對齊的研究。然而目前網(wǎng)絡上的大量雙語文本基本都沒有做到段落對齊,而段落對齊是進行后續(xù)的句子對齊、結構對齊等更深級別的對齊加工的基礎,因此針對這種真實的文本資源,必須首先進行段落對齊。[1]文獻提出了一個將文本依照翻譯塊(translationblock)重新進行分段的方法,它通過漢英詞匯對之間的特征比較,首先對漢語句子進行分詞,找到可以用于漢英語

      8、料庫分段的錨點詞匯對,在此基礎上,通過錨點詞所在句子的匹配獲得錨點句子對來進行分段。但是這種方法僅適合于具有較多高頻固定詞的雙語文本的分段對齊,對于只具有較少高頻固定詞的雙語文本,這種方法就會遇到數(shù)據(jù)稀疏問題導致分段太粗及準確率下降。

      當前文檔最多預覽五頁,下載文檔查看全文

      此文檔下載收益歸作者所有

      當前文檔最多預覽五頁,下載文檔查看全文
      溫馨提示:
      1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
      2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
      3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
      4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。