資源描述:
《漢英機(jī)器翻譯擴(kuò)充詞典的建造 計(jì)算機(jī)專業(yè)畢業(yè)論文》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、漢英機(jī)器翻譯擴(kuò)充詞典的建造摘要:本文首先介紹了我們在“面向新聞?lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)”中語言資源建設(shè)的總體框架,然后著重介紹了其中擴(kuò)充詞典的建設(shè)方法。擴(kuò)充詞典是相對于核心詞典而言的,特點(diǎn)是詞匯量大,每個(gè)詞的信息相對較少。擴(kuò)充詞典的建設(shè)包括以下幾個(gè)階段:收集;格式整理;詞條拆分;詞性標(biāo)記歸一化;詞性標(biāo)記補(bǔ)齊;詞條合并。實(shí)驗(yàn)結(jié)果表明,采用這種方法,利用較少的人工,就可以得到規(guī)模很大、并初步可用的雙語機(jī)器翻譯詞典,并且這部詞典可以大大減少翻譯中未定義詞的數(shù)量,提高翻譯的質(zhì)量。關(guān)鍵詞:機(jī)器翻譯,雙語詞典獲取引言現(xiàn)在的機(jī)器翻譯
2、研究,從一種勞動(dòng)密集型的研究方式逐步過渡到了一種資源密集型的研究方式。這二者的區(qū)別在于,在勞動(dòng)密集型的研究方式中,語言學(xué)家的工作是為某個(gè)具體的機(jī)器翻譯系統(tǒng)開發(fā)詞典、規(guī)則庫等語言知識(shí)庫,其工作依附于某個(gè)具體的機(jī)器翻譯系統(tǒng),不具有獨(dú)立性。而在資源密集型的研究方式中,語言學(xué)家和計(jì)算機(jī)工作者的分工更加明確。語言學(xué)家的研究成果以語言資源的形式呈現(xiàn)出來,而不是僅僅為某一個(gè)機(jī)器翻譯系統(tǒng)服務(wù),其工作具有一定的獨(dú)立性。同時(shí),這種分工導(dǎo)致了語言資源的共享,也使得計(jì)算機(jī)工作者在算法的研究中對于語言資源的使用有了更廣泛的選擇余地。本文簡要介
3、紹了我們在“面向新聞?lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)”開發(fā)過程中語言資源建設(shè)的總體規(guī)劃和實(shí)施情況,然后詳細(xì)介紹了其中一個(gè)子任務(wù)——“擴(kuò)充詞典”建設(shè)的工作流程、算法設(shè)計(jì)、實(shí)施過程和結(jié)果評價(jià)。1語言資源建設(shè)的總體規(guī)劃我們在“面向新聞?lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)”的開發(fā)過程中,非常重視語言資源的建設(shè)。我們建立了一套完整的,覆蓋語言知識(shí)各個(gè)層面的機(jī)器翻譯語言資源建設(shè)規(guī)范,并啟動(dòng)了一系列的語言資源建設(shè)子任務(wù)。這些子任務(wù)包括:1.1漢語語義詞典子任務(wù):在原有語義詞典基礎(chǔ)上,完善規(guī)范、修改錯(cuò)誤、補(bǔ)充詞語,構(gòu)造一部完整的機(jī)器翻譯用漢語語義詞典。目前
4、此項(xiàng)工作正在進(jìn)行,目標(biāo)是將北京大學(xué)語法信息詞典中的七萬多漢語詞語加入到語義詞典中;1.2漢英擴(kuò)充詞典子任務(wù):在原有核心詞典的基礎(chǔ)上構(gòu)造一部機(jī)器翻譯用擴(kuò)充詞典,本文后面將詳細(xì)介紹;1.3漢英短語庫子任務(wù):收集漢英對照的短語,標(biāo)記出短語結(jié)構(gòu)信息,此項(xiàng)工作已告一段落,目前收入短語5萬余條;1.4漢英雙語語料庫收集整理子任務(wù):收集、整理雙語語料庫、進(jìn)行格式整理、篇章標(biāo)注、篇章對齊,此項(xiàng)工作第一階段已經(jīng)完成,收錄大約100萬漢字的漢英對照新聞?wù)Z料以及大量的其他類型語料,目前正在進(jìn)行第二階段工作;1.1漢英雙語語料庫句子對齊子任
5、務(wù):在篇章對齊語料庫基礎(chǔ)上,完成段落對齊和句子對齊,與上一個(gè)子任務(wù)一樣,第一階段已完成,完成了100萬漢字的漢英對照新聞?wù)Z料的句子對齊(約4000句對),并整理其他類型句子對齊語料約18萬句對。目前正在進(jìn)行第二階段工作;1.2漢英雙語語料庫短語對齊子任務(wù):在句子對齊語料庫基礎(chǔ)上,完成子句、最長名詞短語、基本名詞短語以及其他一些特定類型短語的對齊,此項(xiàng)工作第一階段已經(jīng)完成,大約完成了3000漢英句對的短語對齊工作。第二階段還沒有開始。$$背**{vA}v$=[義項(xiàng):"⑴馱;⑵負(fù)擔(dān)",謂詞性主語:NO,系詞:NO,助動(dòng)詞
6、:NO,趨向動(dòng)詞:NO,補(bǔ)助動(dòng)詞:NO,……,語義類:搬移,配價(jià)數(shù):2]{主體:[語義類:人
7、動(dòng)物],客體:[語義類:具體事物],處所:[語義類:空間
8、集體]}=>V$=[VSUBC:VO,VMORF:IREG,VD:bore,VN:borne,OBJTYPE:NP]**{vB1}v$=[義項(xiàng):"⑴向~;⑵避",謂詞性主語:NO,系詞:NO,助動(dòng)詞:NO,趨向動(dòng)詞:NO,補(bǔ)助動(dòng)詞:NO,……,語義類:自移
9、自為,配價(jià)數(shù):1]{主體:[語義類:人],客體:[語義類:人類]}=>D<"behindone'sb
10、ack">$=[DVPRE:NO,DVEND:YES,DADJV:NO,DMORF:NONE]=>V(!VPN)%V=[VSUBC:VI,VMORF:IREG,VD:did,VN:done]**{vB2}v$=[義項(xiàng):"⑷~誦",謂詞性主語:NO,系詞:NO,助動(dòng)詞:NO,趨向動(dòng)詞:NO,補(bǔ)助動(dòng)詞:NO,形式動(dòng)詞:NO,……,語義類:對待,配價(jià)數(shù):2]{主體:[語義類:人],客體:[語義類:人為事物
11、抽象事物]}=>V$=[VSUBC:VO,VMORF:REGU,O
12、BJTYPE:NP
13、CS]**{n}n$=[名詞子類:na,前名:NO,前動(dòng):NO,后名:NO,名狀語:NO,臨時(shí)量詞:NO,語義類:構(gòu)件]=>N$=[NSUBC:NCONT,GEND:NONE]圖1:核心詞典示例本文主要介紹其中的第二項(xiàng)子任務(wù):漢英擴(kuò)充詞典子任務(wù)。1機(jī)器翻譯的詞典建設(shè)雙語詞典建設(shè)是機(jī)器翻譯系統(tǒng)開發(fā)中的一個(gè)重要環(huán)節(jié)。