句子對齊算法介紹

句子對齊算法介紹

ID:37591709

大?。?34.22 KB

頁數(shù):27頁

時間:2019-05-25

句子對齊算法介紹_第1頁
句子對齊算法介紹_第2頁
句子對齊算法介紹_第3頁
句子對齊算法介紹_第4頁
句子對齊算法介紹_第5頁
資源描述:

《句子對齊算法介紹》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫

1、句子對齊算法介紹WeigangLIIRLab,HIT2002-11-6對齊的算法的簡單描述給定雙語語料,在所有可能的對齊中找出概率最大的對齊如用公式表示,就有argmaxP(A/S,T)α其中A是對齊文本,S和T分別是英語和漢語文本。一個對齊的例子?英語文本?漢語文本:Mostofus,however,takelife但是,我們大多數(shù)人把生活認forgranted.Weknowthat為是理所當然的。我們知道,onedaywemustdie,but某一天我們一定會死,但通常usuallywepict

2、urethatdayas我們把那天想象在遙遠的將farinthefuture.Whenweare來。當我們心寬體健時,死亡inbuoyanthealth,deathis幾乎是不可想象的,我們很少allbutunimaginable.We想到它。時日在無窮的展望中seldomthinkofit.Thedaysstretchoutinanendlessvista.延展著,于是我們干著瑣碎的Sowegoaboutourpetty事情,幾乎意識不到我們對生tasks,hardlyawareofour活的倦怠

3、態(tài)度。listlessattitudetowardlife.對齊文本?Mostofus,however,takelifeforgranted.Weknowthatonedaywemustdie,butusuallywepicturethatdayasfarinthefuture.?但是,我們大多數(shù)人把生活認為是理所當然的。我們知道,某一天我們一定會死,但通常我們把那天想象在遙遠的將來。?Whenweareinbuoyanthealth,deathisallbutunimaginable.Weseld

4、omthinkofit.?當我們心寬體健時,死亡幾乎是不可想象的,我們很少想到它。?Thedaysstretchoutinanendlessvista.Sowegoaboutourpettytasks,hardlyawareofourlistlessattitudetowardlife.?時日在無窮的展望中延展著,于是我們干著瑣碎的事情,幾乎意識不到我們對生活的倦怠態(tài)度。對齊的級別雙語語料庫對齊可分為:¢段落對齊¢句子對齊¢短語對齊¢單詞對齊句子對齊的方法?基于長度的句子對齊方法?基于詞典的句子對齊

5、方法?基于長度和詞典相結(jié)合的句子對齊方法基于長度的句子對齊方法?源語言文本的長度與譯文長度有很強的相關(guān)性¢基于詞數(shù)長度的對齊(Brown)¢基于字符數(shù)的長度對齊方法(GaleChurch)基于長度對齊方法的特點?把句子對齊看作是句子長的函數(shù);?不需要額外的詞典信息;?缺點是容易造成錯誤的蔓延基于詞數(shù)長度的對齊(Brown)?Brown對Hansard語料庫進行對齊時,引入了錨點(anchor)的概念將整個語料庫劃分成一些小的片段?采用語料庫中特定的注釋來作為錨點,使用動態(tài)規(guī)劃算法對這些錨點進行匹配?

6、匹配之后錨點之問的文本就能夠一一對應(yīng),形成對齊文本?利用特定的注釋來作為錨點的方法并不適用干一般情況其它基于長度的對齊方法?Fung通過統(tǒng)計文本中詞的頻度和位置信息,采用一些高頻的互譯詞匯對所在句子作為候選錨點?然后利用動態(tài)規(guī)劃算法對雙語文本中這些候選錨點進行匹配,找出真正的錨點?需要對全部詞匯進行統(tǒng)計,計算量很大另外由于數(shù)據(jù)稀疏的問題,還可能會導(dǎo)致錨點的匹配錯誤基于字符數(shù)的長度對齊方法?GaleChurch在1993年實現(xiàn)了這個算法?我主要是利用了這個算法國內(nèi)的對齊算法研究(1)?劉昕等首先利用基

7、于長度的方法對文本進行粗對齊,然后在雙語平行文本中確定錨點并自動抽取雙語對應(yīng)的關(guān)鍵同匯,降低了對齊間題的復(fù)雜度并減少了錯誤的蔓延,最后再利用所得到的詞匯對應(yīng)信息進行句于的對齊國內(nèi)的對齊算法研究(2)?香港的DeKaiWu利用Gale和Church的基于長度方法實現(xiàn)了英語和繁體漢字之間的對齊?還利用了日期,機構(gòu)名等特殊詞表將長度方法與詞匯方法結(jié)合用于句子對齊,這種方法不具有通用性國內(nèi)的對齊算法研究(3)?錢麗萍等人提出基于譯文的雙語句子自動對齊?基本思想是采用一部雙語詞典為橋梁:¢根據(jù)英語句子中的單詞

8、,在詞典中找到對應(yīng)的譯文,并以譯文到漢語句子中去匹配¢根據(jù)評價函數(shù)和動態(tài)規(guī)劃算法找到對齊句對(我也試驗了這個方法)基于長度的對齊----動態(tài)規(guī)劃?最優(yōu)子結(jié)構(gòu)?重疊子問題基于長度的對齊----貝葉斯公式?AA……A是互不相容的事件,且P(A)>0,1、2n、i(i=1,2,……n),若對人一事件B有?A1+A2+……+A包含B,且P(B)>0;則:nP(A)?P(B

9、A)iiP(A

10、B)=in∑P(Ai)P(B

11、Ai)j=1?P(A)是先驗概率,這種概率在實驗前就是已知

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。