擴(kuò)充詞典的建設(shè)

擴(kuò)充詞典的建設(shè)

ID:43688828

大小:178.08 KB

頁(yè)數(shù):9頁(yè)

時(shí)間:2019-10-12

擴(kuò)充詞典的建設(shè)_第1頁(yè)
擴(kuò)充詞典的建設(shè)_第2頁(yè)
擴(kuò)充詞典的建設(shè)_第3頁(yè)
擴(kuò)充詞典的建設(shè)_第4頁(yè)
擴(kuò)充詞典的建設(shè)_第5頁(yè)
資源描述:

《擴(kuò)充詞典的建設(shè)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。

1、漢英機(jī)器翻譯擴(kuò)充詞典的建造劉祥L(zhǎng)2張彤21北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所2中國(guó)科學(xué)院計(jì)算技術(shù)研究所liuqun@ict.ac.cn摘要:本文首先介紹了我們?cè)凇岸蛐侣勵(lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)”屮語(yǔ)言資源建設(shè)的總體框架,然后著重介紹了其中擴(kuò)充詞典的建設(shè)方法。擴(kuò)充詞典是相對(duì)于核心詞典而言的,特點(diǎn)是詞匯量大,每個(gè)詞的信息相對(duì)較少。擴(kuò)充詞典的建設(shè)包括以下幾個(gè)階段:收集;格式整理;詞條拆分;詞性標(biāo)記歸一化;詞性標(biāo)記補(bǔ)齊;詞條合并。實(shí)驗(yàn)結(jié)果表明,采用這種方法,利用較少的人工,就可以得到規(guī)模很大、并初步可用的雙語(yǔ)機(jī)器翻譯詞典,并

2、且這部詞典可以大大減少翻譯中未定義詞的數(shù)量,提高翻譯的質(zhì)量。關(guān)鍵詞:機(jī)器翻譯,雙語(yǔ)詞典獲取引言現(xiàn)在的機(jī)器翻譯研究,從一?種勞動(dòng)密集型的研究方式逐步過(guò)渡到了i種資源密集型的研究方式。這二者的區(qū)別在于,在勞動(dòng)密集型的研究方式中,語(yǔ)言學(xué)家的工作是為某個(gè)具體的機(jī)器翻譯系統(tǒng)開(kāi)發(fā)詞典、規(guī)則庫(kù)等語(yǔ)言知識(shí)庫(kù),其工作依附于某個(gè)具體的機(jī)器翻譯系統(tǒng),不具有獨(dú)立性。而在資源密集型的研究方式屮,語(yǔ)言學(xué)家和計(jì)算機(jī)工作者的分工更加明確。語(yǔ)言學(xué)家的研究成果以語(yǔ)言資源的形式呈現(xiàn)出來(lái),而不是僅僅為某一個(gè)機(jī)器翻譯系統(tǒng)服務(wù),其工作具有一定的獨(dú)立性

3、。同時(shí),這種分工導(dǎo)致了語(yǔ)言資源的共享,也使得計(jì)算機(jī)工作者在算法的研究中對(duì)于語(yǔ)言資源的使用有了更廣泛的選擇余地。本文簡(jiǎn)要介紹了我們?cè)凇懊嫦蛐侣勵(lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)”開(kāi)發(fā)過(guò)程屮語(yǔ)言資源建設(shè)的總體規(guī)劃和實(shí)施情況,然示詳細(xì)介紹了其屮一個(gè)了任務(wù)——“擴(kuò)充詞典”建設(shè)的工作流程、算法設(shè)計(jì)、實(shí)施過(guò)程和結(jié)果評(píng)價(jià)。1語(yǔ)言資源建設(shè)的總體規(guī)劃我們?cè)凇岸蛐侣勵(lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)”的開(kāi)發(fā)過(guò)程中,非常重視語(yǔ)言資源的建設(shè)。我們建立了一?套完整的,覆蓋語(yǔ)言知識(shí)各個(gè)層而的機(jī)器翻譯語(yǔ)言資源建設(shè)規(guī)范,并啟動(dòng)了一系列的語(yǔ)言資源建設(shè)子任務(wù)。這些

4、子任務(wù)包括:1」?jié)h語(yǔ)語(yǔ)義詞典子任務(wù):在原有語(yǔ)義詞典基礎(chǔ)上,完善規(guī)范、修改錯(cuò)誤、補(bǔ)充詞語(yǔ),構(gòu)造一部完整的機(jī)器翻譯用漢語(yǔ)語(yǔ)義詞典。FI前此項(xiàng)工作正在進(jìn)行,冃標(biāo)是將北京大學(xué)語(yǔ)法信息詞典中的七萬(wàn)多漢語(yǔ)詞語(yǔ)加入到語(yǔ)義詞典中;1.2漢英擴(kuò)充詞典子任務(wù):在原有核心詞典的基礎(chǔ)上構(gòu)造一部機(jī)器翻譯用擴(kuò)充詞典,本文后而將詳細(xì)介紹;本項(xiàng)目接受?chē)?guó)家重點(diǎn)基礎(chǔ)研究項(xiàng)目(973)資助,課題號(hào)為:G1998030507-4o1.2漢英短語(yǔ)庫(kù)子任務(wù):收集漢英對(duì)照的短語(yǔ),標(biāo)記出短語(yǔ)結(jié)構(gòu)信息,此項(xiàng)工作已告一段落,目前收入短語(yǔ)5萬(wàn)余條;1.3漢英雙

5、語(yǔ)語(yǔ)料庫(kù)收集整理子任務(wù):收集、整理雙語(yǔ)語(yǔ)料庫(kù)、進(jìn)行格式整理、篇章標(biāo)注、篇章對(duì)齊,此項(xiàng)工作第一階段已經(jīng)完成,收錄大約10()萬(wàn)漢字的漢英對(duì)照新聞?wù)Z料以及人罐的其他類(lèi)型語(yǔ)料,目前正在進(jìn)行第二階段工作;1.4漢英雙語(yǔ)語(yǔ)料庫(kù)句子對(duì)齊子任務(wù):在篇章對(duì)齊語(yǔ)料庫(kù)基礎(chǔ)上,完成段落對(duì)齊和句子對(duì)齊,少上一個(gè)子任務(wù)一樣,第一階段已完成,完成了100萬(wàn)漢字的漢英對(duì)照新聞?wù)Z料的句子對(duì)齊(約4000句對(duì)),并整理其他類(lèi)型句子對(duì)齊語(yǔ)料約18萬(wàn)句對(duì)。目前正在進(jìn)行第二階段工作;1.5漢英雙語(yǔ)語(yǔ)料庫(kù)短語(yǔ)對(duì)齊子任務(wù):在句了對(duì)齊語(yǔ)料庫(kù)基礎(chǔ)上,完成

6、了句、最長(zhǎng)名詞短語(yǔ)、基木名詞短語(yǔ)以及其他一些特定類(lèi)型短語(yǔ)的對(duì)齊,此項(xiàng)工作第一階段已經(jīng)完成,大約完成了3000漢英句對(duì)的短語(yǔ)對(duì)齊工作。第二階段還沒(méi)有開(kāi)始。木文主要介紹其中的第二項(xiàng)了任務(wù):漢英擴(kuò)充詞典了任務(wù)。$$背**{vA)v$=[義項(xiàng):“⑴馱;⑵負(fù)擔(dān)”,謂詞性主語(yǔ):NO,系詞:NO,助動(dòng)詞:NO,趨向動(dòng)詞:NO,補(bǔ)助動(dòng)詞:NO,……,語(yǔ)義類(lèi):搬移,配價(jià)數(shù):2]{主體:[語(yǔ)義類(lèi):人I動(dòng)物],客體:[語(yǔ)義類(lèi):具體事物],處所:[語(yǔ)義類(lèi):空間I集體]}=>VS=lVSUBC:VO,VMORF:IREQ

7、VD:bore,VN:borne,OBJTYPE:NP]**{vBl}v$=[義項(xiàng):”⑴向?;⑵避“,謂詞性主語(yǔ):NO,系詞:NO,助動(dòng)詞:NO,趨向動(dòng)詞:NO,補(bǔ)助動(dòng)詞:NO,……,語(yǔ)義類(lèi):H移舊為,配價(jià)數(shù):1]{主體:[語(yǔ)義類(lèi):人],客體:[語(yǔ)義類(lèi):人類(lèi)]}=>D$=[DVPRE:NO,DVEND:YES,DADJV:NO,DMORF:NONE]=>V(!VPN)%V=[VSUBC:VI,VMORF:IREG,VD:did,VN:

8、done]**{vB2}v$=[義項(xiàng):”(4)~誦”,謂詞性主語(yǔ):NO,系詞:NO,助動(dòng)詞:NO,趨向動(dòng)詞:NO,補(bǔ)助動(dòng)詞:NO,形式動(dòng)詞:NO,……,語(yǔ)義類(lèi):對(duì)待,配價(jià)數(shù):2]{主體:[語(yǔ)義類(lèi):人],客體:[語(yǔ)義類(lèi):人為事物I抽象事物]}=>V$=[VSUBC:VO,VMORF:REGU,OBJTYPE:NPICS]**{n}n$=[名詞了類(lèi):na,前名:NO,前動(dòng):NO,后名:NO,名狀語(yǔ):N

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳,版權(quán)歸屬用戶(hù),天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。