漢英文本級句子對齊技術(shù)的研究

漢英文本級句子對齊技術(shù)的研究

ID:33808388

大小:4.92 MB

頁數(shù):66頁

時(shí)間:2019-02-28

漢英文本級句子對齊技術(shù)的研究_第1頁
漢英文本級句子對齊技術(shù)的研究_第2頁
漢英文本級句子對齊技術(shù)的研究_第3頁
漢英文本級句子對齊技術(shù)的研究_第4頁
漢英文本級句子對齊技術(shù)的研究_第5頁
資源描述:

《漢英文本級句子對齊技術(shù)的研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、萬方數(shù)據(jù)分類號UDC作者姓名:指導(dǎo)教師:申請學(xué)位級別:學(xué)科專業(yè)名稱:論文提交日期:學(xué)位授予日期:密級學(xué)位論文漢英文本級句子對齊技術(shù)的研究孫坤杰胡明涵副教授東北大學(xué)信息科學(xué)與工程學(xué)院碩士學(xué)科類別:工學(xué)計(jì)算機(jī)軟件與理論2014年6月論文答辯日期:2014年6月2014年7月答辯委員會主席:楊曉春評閱人:張俐、戰(zhàn)學(xué)剛東北大學(xué)2014年6月萬方數(shù)據(jù)AThesisinComputerSoftwareandTheoryTechnologyResearchonChineseEnglishTextLevelSentenceAlign

2、mentBySunKunjieSupervisor:AssociateProfessorHuMinghanNortheasternUniversityJune2014萬方數(shù)據(jù)獨(dú)創(chuàng)性聲明本人聲明,所呈交的學(xué)位論文是在導(dǎo)師的指導(dǎo)下完成的。論文中取得的研究成果除加以標(biāo)注和致謝的地方外,不包含其他人己經(jīng)發(fā)表或撰寫過的研究成果,也不包括本人為獲得其他學(xué)位而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝意。學(xué)位論文作者簽名:猻、砷走,日期:hI牛年6悶學(xué)位論文版權(quán)使用授權(quán)書本學(xué)位論文作者

3、和指導(dǎo)教師完全了解東北大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定:即學(xué)校有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱。本人同意東北大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索、交流。作者和導(dǎo)師同意網(wǎng)上交流的時(shí)間為作者獲得學(xué)位后:半年日一年口一年半口兩年口學(xué)位論文作者簽名:瑚撕煮,簽字日期:入l午年6目導(dǎo)師簽名:娟悄簽字日期:調(diào)l爭手6lf;}萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文摘要漢英文本級句子對齊技術(shù)的研究摘要雙語語料庫是存放兩種語意對齊的語料資源和信息的倉庫,是機(jī)器翻譯和多語言處理的重要資

4、源,被廣泛的應(yīng)用于機(jī)器翻譯、機(jī)助人譯、翻譯知識的抽取、詞義排歧、跨語言信息檢索等領(lǐng)域。其中,對齊技術(shù)是加工雙語文本的核心,對齊效果的好壞直接影響了以后工作的進(jìn)行。雙語文本級句對齊包含了段落對齊和句子對齊,二者對齊原理類似?;跐h英雙語的實(shí)際情況,本文主要從對齊的準(zhǔn)確性和速度方面,在兼顧準(zhǔn)確率和召回率的前提下,提高文本對齊的速度。首先,根據(jù)本文提出的錨點(diǎn)對齊算法,將文本劃分為文本塊。該方法利用文本中的命名實(shí)體如人名、地名、組織機(jī)構(gòu)名和數(shù)字類、時(shí)間類、日期類等這些特殊信息,利用動態(tài)規(guī)劃算法將文本劃分為幾個(gè)片段。實(shí)驗(yàn)證明,

5、該錨點(diǎn)對齊算法在段落對齊和句對齊中準(zhǔn)確率可以達(dá)到98%。然后,在文本段落對齊實(shí)驗(yàn)中,采用基于長度和均等權(quán)重的詞典對齊結(jié)合的對齊方法,獲得了良好的對齊效果,準(zhǔn)確率達(dá)到93.4%。添加錨點(diǎn)對齊后的段落對齊,召回率增加了,對齊速度是以前的2.5倍。在文本句子對齊實(shí)驗(yàn)中,分別進(jìn)行了直接句對齊和先段落對齊后句對齊的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明含有段落信息的文本句對齊要比直接進(jìn)行句對齊效果好。直接句子對齊不利用段落信息,其中基于長度和TF.IDF權(quán)重的詞典對齊方法最好,準(zhǔn)確率達(dá)到93.6%,添加錨點(diǎn)對齊后,準(zhǔn)確率一致的情況下,召回率提高了

6、0.5個(gè)百分點(diǎn),運(yùn)行速度提高了3.4倍。含段落信息的文本句對齊中,首先利用基于長度和詞典結(jié)合的方法進(jìn)行段落對齊,然后利用直接句子對齊的方法,準(zhǔn)確率達(dá)到了92.8%,在整個(gè)對齊過程中,添加錨點(diǎn)對齊后,準(zhǔn)確率一致的情況下,召回率提高了O.5個(gè)百分點(diǎn)。本文的主要工作分為兩部分:一是提出基于錨點(diǎn)對齊方法,將待對齊的文本劃分為小的片段,然后在片段內(nèi)進(jìn)行段落對齊或句子對齊,實(shí)驗(yàn)表明,該方法準(zhǔn)確率達(dá)到98%。二是結(jié)合長度對齊方法和雙語詞典對齊方法的特點(diǎn),將二者融合到文本級段落對齊和句子對齊中,總結(jié)出了適用于段落對齊和句子對齊的方法

7、。關(guān)鍵詞:段落對齊;句對齊;錨點(diǎn)對齊;實(shí)體識別;TF—IDF權(quán)重.II.萬方數(shù)據(jù)東北大學(xué)碩士學(xué)位論文AbstractAbstractBilingualcorpusisawarehouseofstoretwosemanticalignedcorpusresourcesandinformation,whichisanimportantresourceformanylanguageprocessingandmachinetranslation.Bilingualcorpusiswidelyusedinmachinetran

8、slation,machineaidedhumantranslation,translationknowledgeextraction,WSD,crosslanguageinformationretrieval.Amongthem,thealignmentisthekeytechnologytoprocessingbilingualtext,t

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時(shí)可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。