漢英機(jī)器翻譯擴(kuò)充詞典的建造

漢英機(jī)器翻譯擴(kuò)充詞典的建造

ID:18388530

大小:69.50 KB

頁(yè)數(shù):8頁(yè)

時(shí)間:2018-09-17

漢英機(jī)器翻譯擴(kuò)充詞典的建造_第1頁(yè)
漢英機(jī)器翻譯擴(kuò)充詞典的建造_第2頁(yè)
漢英機(jī)器翻譯擴(kuò)充詞典的建造_第3頁(yè)
漢英機(jī)器翻譯擴(kuò)充詞典的建造_第4頁(yè)
漢英機(jī)器翻譯擴(kuò)充詞典的建造_第5頁(yè)
資源描述:

《漢英機(jī)器翻譯擴(kuò)充詞典的建造》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、漢英機(jī)器翻譯擴(kuò)充詞典的建造*本項(xiàng)目接受?chē)?guó)家重點(diǎn)基礎(chǔ)研究項(xiàng)目(973)資助,課題號(hào)為:G1998030507-4。劉群1,2張彤21北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所2中國(guó)科學(xué)院計(jì)算技術(shù)研究所liuqun@ict.ac.cn摘要:本文首先介紹了我們?cè)凇懊嫦蛐侣勵(lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)”中語(yǔ)言資源建設(shè)的總體框架,然后著重介紹了其中擴(kuò)充詞典的建設(shè)方法。擴(kuò)充詞典是相對(duì)于核心詞典而言的,特點(diǎn)是詞匯量大,每個(gè)詞的信息相對(duì)較少。擴(kuò)充詞典的建設(shè)包括以下幾個(gè)階段:收集;格式整理;詞條拆分;詞性標(biāo)記歸一化;詞性標(biāo)記補(bǔ)齊;詞條合并。實(shí)驗(yàn)結(jié)果表明,采用這種方法,利用較少的人

2、工,就可以得到規(guī)模很大、并初步可用的雙語(yǔ)機(jī)器翻譯詞典,并且這部詞典可以大大減少翻譯中未定義詞的數(shù)量,提高翻譯的質(zhì)量。關(guān)鍵詞:機(jī)器翻譯,雙語(yǔ)詞典獲取引言現(xiàn)在的機(jī)器翻譯研究,從一種勞動(dòng)密集型的研究方式逐步過(guò)渡到了一種資源密集型的研究方式。這二者的區(qū)別在于,在勞動(dòng)密集型的研究方式中,語(yǔ)言學(xué)家的工作是為某個(gè)具體的機(jī)器翻譯系統(tǒng)開(kāi)發(fā)詞典、規(guī)則庫(kù)等語(yǔ)言知識(shí)庫(kù),其工作依附于某個(gè)具體的機(jī)器翻譯系統(tǒng),不具有獨(dú)立性。而在資源密集型的研究方式中,語(yǔ)言學(xué)家和計(jì)算機(jī)工作者的分工更加明確。語(yǔ)言學(xué)家的研究成果以語(yǔ)言資源的形式呈現(xiàn)出來(lái),而不是僅僅為某一個(gè)機(jī)器翻譯系統(tǒng)服務(wù),

3、其工作具有一定的獨(dú)立性。同時(shí),這種分工導(dǎo)致了語(yǔ)言資源的共享,也使得計(jì)算機(jī)工作者在算法的研究中對(duì)于語(yǔ)言資源的使用有了更廣泛的選擇余地。本文簡(jiǎn)要介紹了我們?cè)凇懊嫦蛐侣勵(lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)”開(kāi)發(fā)過(guò)程中語(yǔ)言資源建設(shè)的總體規(guī)劃和實(shí)施情況,然后詳細(xì)介紹了其中一個(gè)子任務(wù)——“擴(kuò)充詞典”建設(shè)的工作流程、算法設(shè)計(jì)、實(shí)施過(guò)程和結(jié)果評(píng)價(jià)。1語(yǔ)言資源建設(shè)的總體規(guī)劃我們?cè)凇懊嫦蛐侣勵(lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)”的開(kāi)發(fā)過(guò)程中,非常重視語(yǔ)言資源的建設(shè)。我們建立了一套完整的,覆蓋語(yǔ)言知識(shí)各個(gè)層面的機(jī)器翻譯語(yǔ)言資源建設(shè)規(guī)范,并啟動(dòng)了一系列的語(yǔ)言資源建設(shè)子任務(wù)。這些子任務(wù)包括:

4、1.1漢語(yǔ)語(yǔ)義詞典子任務(wù):在原有語(yǔ)義詞典基礎(chǔ)上,完善規(guī)范、修改錯(cuò)誤、補(bǔ)充詞語(yǔ),構(gòu)造一部完整的機(jī)器翻譯用漢語(yǔ)語(yǔ)義詞典。目前此項(xiàng)工作正在進(jìn)行,目標(biāo)是將北京大學(xué)語(yǔ)法信息詞典中的七萬(wàn)多漢語(yǔ)詞語(yǔ)加入到語(yǔ)義詞典中;1.2漢英擴(kuò)充詞典子任務(wù):在原有核心詞典的基礎(chǔ)上構(gòu)造一部機(jī)器翻譯用擴(kuò)充詞典,本文后面將詳細(xì)介紹;1.1漢英短語(yǔ)庫(kù)子任務(wù):收集漢英對(duì)照的短語(yǔ),標(biāo)記出短語(yǔ)結(jié)構(gòu)信息,此項(xiàng)工作已告一段落,目前收入短語(yǔ)5萬(wàn)余條;1.2漢英雙語(yǔ)語(yǔ)料庫(kù)收集整理子任務(wù):收集、整理雙語(yǔ)語(yǔ)料庫(kù)、進(jìn)行格式整理、篇章標(biāo)注、篇章對(duì)齊,此項(xiàng)工作第一階段已經(jīng)完成,收錄大約100萬(wàn)漢字的

5、漢英對(duì)照新聞?wù)Z料以及大量的其他類型語(yǔ)料,目前正在進(jìn)行第二階段工作;1.3漢英雙語(yǔ)語(yǔ)料庫(kù)句子對(duì)齊子任務(wù):在篇章對(duì)齊語(yǔ)料庫(kù)基礎(chǔ)上,完成段落對(duì)齊和句子對(duì)齊,與上一個(gè)子任務(wù)一樣,第一階段已完成,完成了100萬(wàn)漢字的漢英對(duì)照新聞?wù)Z料的句子對(duì)齊(約4000句對(duì)),并整理其他類型句子對(duì)齊語(yǔ)料約18萬(wàn)句對(duì)。目前正在進(jìn)行第二階段工作;1.4漢英雙語(yǔ)語(yǔ)料庫(kù)短語(yǔ)對(duì)齊子任務(wù):在句子對(duì)齊語(yǔ)料庫(kù)基礎(chǔ)上,完成子句、最長(zhǎng)名詞短語(yǔ)、基本名詞短語(yǔ)以及其他一些特定類型短語(yǔ)的對(duì)齊,此項(xiàng)工作第一階段已經(jīng)完成,大約完成了3000漢英句對(duì)的短語(yǔ)對(duì)齊工作。第二階段還沒(méi)有開(kāi)始。$$背**

6、{vA}v$=[義項(xiàng):"⑴馱;⑵負(fù)擔(dān)",謂詞性主語(yǔ):NO,系詞:NO,助動(dòng)詞:NO,趨向動(dòng)詞:NO,補(bǔ)助動(dòng)詞:NO,……,語(yǔ)義類:搬移,配價(jià)數(shù):2]{主體:[語(yǔ)義類:人

7、動(dòng)物],客體:[語(yǔ)義類:具體事物],處所:[語(yǔ)義類:空間

8、集體]}=>V$=[VSUBC:VO,VMORF:IREG,VD:bore,VN:borne,OBJTYPE:NP]**{vB1}v$=[義項(xiàng):"⑴向~;⑵避",謂詞性主語(yǔ):NO,系詞:NO,助動(dòng)詞:NO,趨向動(dòng)詞:NO,補(bǔ)助動(dòng)詞:NO,……,語(yǔ)義類:自移

9、自為,配價(jià)數(shù):1]{主體:[語(yǔ)義類:人],客體

10、:[語(yǔ)義類:人類]}=>D<"behindone'sback">$=[DVPRE:NO,DVEND:YES,DADJV:NO,DMORF:NONE]=>V(!VPN)%V=[VSUBC:VI,VMORF:IREG,VD:did,VN:done]**{vB2}v$=[義項(xiàng):"⑷~誦",謂詞性主語(yǔ):NO,系詞:NO,助動(dòng)詞:NO,趨向動(dòng)詞:NO,補(bǔ)助動(dòng)詞:NO,形式動(dòng)詞:NO,……,語(yǔ)義類:對(duì)待,配價(jià)數(shù):2]{主體:[語(yǔ)義類:人],客體:[語(yǔ)義類:人為事物

11、抽象事物]}=>V$=[VSUBC

12、:VO,VMORF:REGU,OBJTYPE:NP

13、CS]**{n}n$=[名詞子類:na,前名:NO,前動(dòng):NO,后名:NO,名狀語(yǔ):NO,臨時(shí)量詞:NO,語(yǔ)義類:構(gòu)件]=>N$

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。