基于雙語對(duì)齊語料--英漢詞典的自動(dòng)生成.pdf

基于雙語對(duì)齊語料--英漢詞典的自動(dòng)生成.pdf

ID:52469655

大?。?85.41 KB

頁(yè)數(shù):10頁(yè)

時(shí)間:2020-03-27

基于雙語對(duì)齊語料--英漢詞典的自動(dòng)生成.pdf_第1頁(yè)
基于雙語對(duì)齊語料--英漢詞典的自動(dòng)生成.pdf_第2頁(yè)
基于雙語對(duì)齊語料--英漢詞典的自動(dòng)生成.pdf_第3頁(yè)
基于雙語對(duì)齊語料--英漢詞典的自動(dòng)生成.pdf_第4頁(yè)
基于雙語對(duì)齊語料--英漢詞典的自動(dòng)生成.pdf_第5頁(yè)
資源描述:

《基于雙語對(duì)齊語料--英漢詞典的自動(dòng)生成.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、基于雙語對(duì)齊語料--英漢詞典的自動(dòng)生成中文信息處理Project:0124120杜浩January16,2005摘摘摘要要要本文提出一種自動(dòng)生成英漢詞典的方法。該方法基于已對(duì)齊的雙語語料庫(kù),針對(duì)查詢英文單詞,枚舉其可能的中文釋義,從中挖掘與該查詢英文單詞共生頻率高,但自身衍生頻率低的中文釋義,生成詞典。本方法在《圣經(jīng)恢復(fù)本-中英對(duì)照版》語料庫(kù)上實(shí)驗(yàn),成功提取了5668單詞的中文釋義,并達(dá)到了1級(jí)釋義正確率60%和4級(jí)釋義的正確率88%的評(píng)估結(jié)果。1引引引言言言英漢詞典,作為溝通中文和英語兩種不同語言之間的橋梁,為中國(guó)與世界的交流做出了巨大貢獻(xiàn)

2、。它的編制和生產(chǎn)已經(jīng)產(chǎn)品化。英漢詞典編制的基礎(chǔ)是中英文對(duì)于同一事物的兩種不同表達(dá)。設(shè)想世界上第一本英漢詞典的編制,由一個(gè)即懂中文又懂英文,但不知道中英文單詞對(duì)應(yīng)關(guān)系的人,經(jīng)過長(zhǎng)期對(duì)兩種語言的學(xué)習(xí)、對(duì)比,他總結(jié)出對(duì)應(yīng)的規(guī)律,發(fā)現(xiàn)在表達(dá)有關(guān)鉛筆的時(shí)候,例如“Thereisapencilonthedesk.”、“Ihaveapencil.”、“Thepencilisbeautiful.”,都含有“pencil”這一詞。于是得出結(jié)論,“pencil”很可能指得就是“鉛筆”。于是,將這一對(duì)應(yīng)關(guān)系寫下來,作為詞典中的一個(gè)詞條。無論是印刷版詞典,或是當(dāng)今廣

3、為使用的類似“金山詞霸”這樣的電子詞典,目前為止都是人工編制的。人經(jīng)過對(duì)中英文的對(duì)比、總結(jié),慢慢的發(fā)現(xiàn)詞條之間的對(duì)應(yīng)關(guān)系。人工智能領(lǐng)域研究和發(fā)展的今天,我們可以嘗試用計(jì)算機(jī)來做這一件事。這可以看作機(jī)器翻譯[1]的逆過程(一些早期的機(jī)器翻譯算法,根據(jù)詞典生成譯文。而本文是根據(jù)雙語對(duì)照的譯文,生成詞典)。這一工作的基礎(chǔ),是大量的雙語對(duì)齊語料庫(kù),用來給計(jì)算機(jī)“學(xué)習(xí)”,恰好類似于第一個(gè)編英漢詞典的人也需要學(xué)習(xí)大量對(duì)于同一事1物的雙語表達(dá)。引文[2]提出一種實(shí)現(xiàn)方案,在其實(shí)現(xiàn)步驟中,需要完成中文分詞、釋義詞典過濾。然而,中文分詞需要用到漢語詞典,與此同

4、時(shí)并不是語言中所有的詞出現(xiàn)在詞典中,音譯英文姓名、地名往往不存在漢語詞典中,分詞的結(jié)果會(huì)使這些詞的翻譯不準(zhǔn)確。另一方面,我們不妨假定詞典生成這一工作從頭做起,而不使用部分已釋義的“釋義詞典”。本文給出一個(gè)行之有效的統(tǒng)計(jì)方法,自動(dòng)生成英法詞典。此方法僅依賴對(duì)齊的雙語語庫(kù),而不采用其它資源,在《圣經(jīng)恢復(fù)本-中英文對(duì)照版》上取得良好的實(shí)驗(yàn)結(jié)果。2英英英漢漢漢詞詞詞典典典自自自動(dòng)動(dòng)動(dòng)生生生成成成方方方法法法在這一節(jié)里,提出一種基于中英文對(duì)齊語料庫(kù)的英漢詞典自動(dòng)生成的方法?;谶@樣一個(gè)原始的思想:給出英文單詞,在雙語語料庫(kù)中查出所有包含該詞的句,從這些

5、句的中文翻譯中,尋找高頻出現(xiàn)的公共詞語,另一方面,從中取出在整個(gè)語料庫(kù)中低頻出現(xiàn)的,這些詞語與該英文單詞共生共滅,它們有較大的概率成為該單詞的中文釋義。2.1給給給定定定英英英文文文單單單詞詞詞,,,挖挖挖掘掘掘中中中文文文翻翻翻譯譯譯在敘述這一過程之前,我們假定對(duì)齊的雙語語料庫(kù)已采集好,共有n句,用集合M表示,M=f(E1;C1);(E2;C2);:::;(En;Cn)g(1)其中(Ei;Ci)表示一句英文Ei對(duì)應(yīng)它的中文句Ci。給定查詢單詞w,第一步操作是創(chuàng)建候選釋義集。例如給出查詢單詞“China”,認(rèn)為它的可能的中文釋義“中國(guó)”一定出

6、現(xiàn)在包含“China”的那些句子的中文翻譯里,于是,先采集出這些句。令W是英文句中包含w的句集合,W=f(E;C)jw2E^(E;C)2Mg(2)2顯然,W2M(3)下一步是從候選句中枚舉所有的候選中文詞。如果一句中文包含m個(gè)漢字,如果認(rèn)為中文詞可以任意長(zhǎng),則可以從這一句中搜取出m(m+1)=2個(gè)不同位置和長(zhǎng)度的子串。由于O(m2)的中文詞量,數(shù)據(jù)量過大,另一方面,根據(jù)我們平常的經(jīng)驗(yàn),在詞典中出現(xiàn)的常用中文詞長(zhǎng)度不會(huì)太長(zhǎng),于是可以做一點(diǎn)假設(shè),設(shè)定閾值k為候選中文詞的最大長(zhǎng)度。給定一個(gè)中文句,將長(zhǎng)度小于等于k的中文詞枚舉出來,做進(jìn)一步考慮。記f

7、k(C)為枚舉單句中文釋義操作。該操作將一個(gè)中文句C中一切長(zhǎng)度分別為1,2,3,...,k的中文子串截取,濾除包含標(biāo)點(diǎn)符號(hào)的子串。那么,對(duì)于英文單詞w,其所有可能中文釋義集合Fw定義為:[Fw=fk(C)(4)(E;C)2W怎樣從Fw中選出w的最可能的釋義呢?這里采取的方法是對(duì)每個(gè)詞進(jìn)行評(píng)分。對(duì)于給定語料庫(kù)M、給定英文查詢?cè)~w、給定的候選中文釋義c,定義:2基頻數(shù)nw:查詢英文單詞w在M的出現(xiàn)次數(shù),基頻數(shù)用來作為評(píng)分的參考。2共生頻數(shù)nw;c:候選中文釋義c在W的出現(xiàn)次數(shù)。2衍生頻數(shù)nc:候選中文釋義c在M的出現(xiàn)次數(shù)。分別定義共生概率p(c)

8、,衍生概率q(c):nw;cp(c)=(5)nwncq(c)=(6)nw;c如上分析可知,p值高表明出現(xiàn)w的句也出現(xiàn)c的概率大;q值低表明不出現(xiàn)w的句出現(xiàn)c的概率小

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。