漢英機(jī)器翻譯擴(kuò)充詞典的建造 計(jì)算機(jī)專業(yè)畢業(yè)論文

漢英機(jī)器翻譯擴(kuò)充詞典的建造 計(jì)算機(jī)專業(yè)畢業(yè)論文

ID:321001

大?。?4.00 KB

頁數(shù):15頁

時(shí)間:2017-07-23

漢英機(jī)器翻譯擴(kuò)充詞典的建造  計(jì)算機(jī)專業(yè)畢業(yè)論文_第1頁
漢英機(jī)器翻譯擴(kuò)充詞典的建造  計(jì)算機(jī)專業(yè)畢業(yè)論文_第2頁
漢英機(jī)器翻譯擴(kuò)充詞典的建造  計(jì)算機(jī)專業(yè)畢業(yè)論文_第3頁
漢英機(jī)器翻譯擴(kuò)充詞典的建造  計(jì)算機(jī)專業(yè)畢業(yè)論文_第4頁
漢英機(jī)器翻譯擴(kuò)充詞典的建造  計(jì)算機(jī)專業(yè)畢業(yè)論文_第5頁
資源描述:

《漢英機(jī)器翻譯擴(kuò)充詞典的建造 計(jì)算機(jī)專業(yè)畢業(yè)論文》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、漢英機(jī)器翻譯擴(kuò)充詞典的建造摘要:本文首先介紹了我們在“面向新聞?lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)”中語言資源建設(shè)的總體框架,然后著重介紹了其中擴(kuò)充詞典的建設(shè)方法。擴(kuò)充詞典是相對于核心詞典而言的,特點(diǎn)是詞匯量大,每個(gè)詞的信息相對較少。擴(kuò)充詞典的建設(shè)包括以下幾個(gè)階段:收集;格式整理;詞條拆分;詞性標(biāo)記歸一化;詞性標(biāo)記補(bǔ)齊;詞條合并。實(shí)驗(yàn)結(jié)果表明,采用這種方法,利用較少的人工,就可以得到規(guī)模很大、并初步可用的雙語機(jī)器翻譯詞典,并且這部詞典可以大大減少翻譯中未定義詞的數(shù)量,提高翻譯的質(zhì)量。關(guān)鍵詞:機(jī)器翻譯,雙語詞典獲取引言現(xiàn)在的機(jī)器翻譯

2、研究,從一種勞動(dòng)密集型的研究方式逐步過渡到了一種資源密集型的研究方式。這二者的區(qū)別在于,在勞動(dòng)密集型的研究方式中,語言學(xué)家的工作是為某個(gè)具體的機(jī)器翻譯系統(tǒng)開發(fā)詞典、規(guī)則庫等語言知識(shí)庫,其工作依附于某個(gè)具體的機(jī)器翻譯系統(tǒng),不具有獨(dú)立性。而在資源密集型的研究方式中,語言學(xué)家和計(jì)算機(jī)工作者的分工更加明確。語言學(xué)家的研究成果以語言資源的形式呈現(xiàn)出來,而不是僅僅為某一個(gè)機(jī)器翻譯系統(tǒng)服務(wù),其工作具有一定的獨(dú)立性。同時(shí),這種分工導(dǎo)致了語言資源的共享,也使得計(jì)算機(jī)工作者在算法的研究中對于語言資源的使用有了更廣泛的選擇余地。本文簡要介

3、紹了我們在“面向新聞?lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)”開發(fā)過程中語言資源建設(shè)的總體規(guī)劃和實(shí)施情況,然后詳細(xì)介紹了其中一個(gè)子任務(wù)——“擴(kuò)充詞典”建設(shè)的工作流程、算法設(shè)計(jì)、實(shí)施過程和結(jié)果評價(jià)。1語言資源建設(shè)的總體規(guī)劃我們在“面向新聞?lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)”的開發(fā)過程中,非常重視語言資源的建設(shè)。我們建立了一套完整的,覆蓋語言知識(shí)各個(gè)層面的機(jī)器翻譯語言資源建設(shè)規(guī)范,并啟動(dòng)了一系列的語言資源建設(shè)子任務(wù)。這些子任務(wù)包括:1.1漢語語義詞典子任務(wù):在原有語義詞典基礎(chǔ)上,完善規(guī)范、修改錯(cuò)誤、補(bǔ)充詞語,構(gòu)造一部完整的機(jī)器翻譯用漢語語義詞典。目前

4、此項(xiàng)工作正在進(jìn)行,目標(biāo)是將北京大學(xué)語法信息詞典中的七萬多漢語詞語加入到語義詞典中;1.2漢英擴(kuò)充詞典子任務(wù):在原有核心詞典的基礎(chǔ)上構(gòu)造一部機(jī)器翻譯用擴(kuò)充詞典,本文后面將詳細(xì)介紹;1.3漢英短語庫子任務(wù):收集漢英對照的短語,標(biāo)記出短語結(jié)構(gòu)信息,此項(xiàng)工作已告一段落,目前收入短語5萬余條;1.4漢英雙語語料庫收集整理子任務(wù):收集、整理雙語語料庫、進(jìn)行格式整理、篇章標(biāo)注、篇章對齊,此項(xiàng)工作第一階段已經(jīng)完成,收錄大約100萬漢字的漢英對照新聞?wù)Z料以及大量的其他類型語料,目前正在進(jìn)行第二階段工作;1.1漢英雙語語料庫句子對齊子任

5、務(wù):在篇章對齊語料庫基礎(chǔ)上,完成段落對齊和句子對齊,與上一個(gè)子任務(wù)一樣,第一階段已完成,完成了100萬漢字的漢英對照新聞?wù)Z料的句子對齊(約4000句對),并整理其他類型句子對齊語料約18萬句對。目前正在進(jìn)行第二階段工作;1.2漢英雙語語料庫短語對齊子任務(wù):在句子對齊語料庫基礎(chǔ)上,完成子句、最長名詞短語、基本名詞短語以及其他一些特定類型短語的對齊,此項(xiàng)工作第一階段已經(jīng)完成,大約完成了3000漢英句對的短語對齊工作。第二階段還沒有開始。$$背**{vA}v$=[義項(xiàng):"⑴馱;⑵負(fù)擔(dān)",謂詞性主語:NO,系詞:NO,助動(dòng)詞

6、:NO,趨向動(dòng)詞:NO,補(bǔ)助動(dòng)詞:NO,……,語義類:搬移,配價(jià)數(shù):2]{主體:[語義類:人

7、動(dòng)物],客體:[語義類:具體事物],處所:[語義類:空間

8、集體]}=>V$=[VSUBC:VO,VMORF:IREG,VD:bore,VN:borne,OBJTYPE:NP]**{vB1}v$=[義項(xiàng):"⑴向~;⑵避",謂詞性主語:NO,系詞:NO,助動(dòng)詞:NO,趨向動(dòng)詞:NO,補(bǔ)助動(dòng)詞:NO,……,語義類:自移

9、自為,配價(jià)數(shù):1]{主體:[語義類:人],客體:[語義類:人類]}=>D<"behindone'sb

10、ack">$=[DVPRE:NO,DVEND:YES,DADJV:NO,DMORF:NONE]=>V(!VPN)%V=[VSUBC:VI,VMORF:IREG,VD:did,VN:done]**{vB2}v$=[義項(xiàng):"⑷~誦",謂詞性主語:NO,系詞:NO,助動(dòng)詞:NO,趨向動(dòng)詞:NO,補(bǔ)助動(dòng)詞:NO,形式動(dòng)詞:NO,……,語義類:對待,配價(jià)數(shù):2]{主體:[語義類:人],客體:[語義類:人為事物

11、抽象事物]}=>V$=[VSUBC:VO,VMORF:REGU,O

12、BJTYPE:NP

13、CS]**{n}n$=[名詞子類:na,前名:NO,前動(dòng):NO,后名:NO,名狀語:NO,臨時(shí)量詞:NO,語義類:構(gòu)件]=>N$=[NSUBC:NCONT,GEND:NONE]圖1:核心詞典示例本文主要介紹其中的第二項(xiàng)子任務(wù):漢英擴(kuò)充詞典子任務(wù)。1機(jī)器翻譯的詞典建設(shè)雙語詞典建設(shè)是機(jī)器翻譯系統(tǒng)開發(fā)中的一個(gè)重要環(huán)節(jié)。

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。