資源描述:
《基于雙語對(duì)齊語料--英漢詞典的自動(dòng)生成.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、基于雙語對(duì)齊語料--英漢詞典的自動(dòng)生成中文信息處理Project:0124120杜浩January16,2005摘摘摘要要要本文提出一種自動(dòng)生成英漢詞典的方法。該方法基于已對(duì)齊的雙語語料庫(kù),針對(duì)查詢英文單詞,枚舉其可能的中文釋義,從中挖掘與該查詢英文單詞共生頻率高,但自身衍生頻率低的中文釋義,生成詞典。本方法在《圣經(jīng)恢復(fù)本-中英對(duì)照版》語料庫(kù)上實(shí)驗(yàn),成功提取了5668單詞的中文釋義,并達(dá)到了1級(jí)釋義正確率60%和4級(jí)釋義的正確率88%的評(píng)估結(jié)果。1引引引言言言英漢詞典,作為溝通中文和英語兩種不同語言之間的橋梁,為中國(guó)與世界的交流做出了巨大貢獻(xiàn)
2、。它的編制和生產(chǎn)已經(jīng)產(chǎn)品化。英漢詞典編制的基礎(chǔ)是中英文對(duì)于同一事物的兩種不同表達(dá)。設(shè)想世界上第一本英漢詞典的編制,由一個(gè)即懂中文又懂英文,但不知道中英文單詞對(duì)應(yīng)關(guān)系的人,經(jīng)過長(zhǎng)期對(duì)兩種語言的學(xué)習(xí)、對(duì)比,他總結(jié)出對(duì)應(yīng)的規(guī)律,發(fā)現(xiàn)在表達(dá)有關(guān)鉛筆的時(shí)候,例如“Thereisapencilonthedesk.”、“Ihaveapencil.”、“Thepencilisbeautiful.”,都含有“pencil”這一詞。于是得出結(jié)論,“pencil”很可能指得就是“鉛筆”。于是,將這一對(duì)應(yīng)關(guān)系寫下來,作為詞典中的一個(gè)詞條。無論是印刷版詞典,或是當(dāng)今廣
3、為使用的類似“金山詞霸”這樣的電子詞典,目前為止都是人工編制的。人經(jīng)過對(duì)中英文的對(duì)比、總結(jié),慢慢的發(fā)現(xiàn)詞條之間的對(duì)應(yīng)關(guān)系。人工智能領(lǐng)域研究和發(fā)展的今天,我們可以嘗試用計(jì)算機(jī)來做這一件事。這可以看作機(jī)器翻譯[1]的逆過程(一些早期的機(jī)器翻譯算法,根據(jù)詞典生成譯文。而本文是根據(jù)雙語對(duì)照的譯文,生成詞典)。這一工作的基礎(chǔ),是大量的雙語對(duì)齊語料庫(kù),用來給計(jì)算機(jī)“學(xué)習(xí)”,恰好類似于第一個(gè)編英漢詞典的人也需要學(xué)習(xí)大量對(duì)于同一事1物的雙語表達(dá)。引文[2]提出一種實(shí)現(xiàn)方案,在其實(shí)現(xiàn)步驟中,需要完成中文分詞、釋義詞典過濾。然而,中文分詞需要用到漢語詞典,與此同
4、時(shí)并不是語言中所有的詞出現(xiàn)在詞典中,音譯英文姓名、地名往往不存在漢語詞典中,分詞的結(jié)果會(huì)使這些詞的翻譯不準(zhǔn)確。另一方面,我們不妨假定詞典生成這一工作從頭做起,而不使用部分已釋義的“釋義詞典”。本文給出一個(gè)行之有效的統(tǒng)計(jì)方法,自動(dòng)生成英法詞典。此方法僅依賴對(duì)齊的雙語語庫(kù),而不采用其它資源,在《圣經(jīng)恢復(fù)本-中英文對(duì)照版》上取得良好的實(shí)驗(yàn)結(jié)果。2英英英漢漢漢詞詞詞典典典自自自動(dòng)動(dòng)動(dòng)生生生成成成方方方法法法在這一節(jié)里,提出一種基于中英文對(duì)齊語料庫(kù)的英漢詞典自動(dòng)生成的方法?;谶@樣一個(gè)原始的思想:給出英文單詞,在雙語語料庫(kù)中查出所有包含該詞的句,從這些
5、句的中文翻譯中,尋找高頻出現(xiàn)的公共詞語,另一方面,從中取出在整個(gè)語料庫(kù)中低頻出現(xiàn)的,這些詞語與該英文單詞共生共滅,它們有較大的概率成為該單詞的中文釋義。2.1給給給定定定英英英文文文單單單詞詞詞,,,挖挖挖掘掘掘中中中文文文翻翻翻譯譯譯在敘述這一過程之前,我們假定對(duì)齊的雙語語料庫(kù)已采集好,共有n句,用集合M表示,M=f(E1;C1);(E2;C2);:::;(En;Cn)g(1)其中(Ei;Ci)表示一句英文Ei對(duì)應(yīng)它的中文句Ci。給定查詢單詞w,第一步操作是創(chuàng)建候選釋義集。例如給出查詢單詞“China”,認(rèn)為它的可能的中文釋義“中國(guó)”一定出
6、現(xiàn)在包含“China”的那些句子的中文翻譯里,于是,先采集出這些句。令W是英文句中包含w的句集合,W=f(E;C)jw2E^(E;C)2Mg(2)2顯然,W2M(3)下一步是從候選句中枚舉所有的候選中文詞。如果一句中文包含m個(gè)漢字,如果認(rèn)為中文詞可以任意長(zhǎng),則可以從這一句中搜取出m(m+1)=2個(gè)不同位置和長(zhǎng)度的子串。由于O(m2)的中文詞量,數(shù)據(jù)量過大,另一方面,根據(jù)我們平常的經(jīng)驗(yàn),在詞典中出現(xiàn)的常用中文詞長(zhǎng)度不會(huì)太長(zhǎng),于是可以做一點(diǎn)假設(shè),設(shè)定閾值k為候選中文詞的最大長(zhǎng)度。給定一個(gè)中文句,將長(zhǎng)度小于等于k的中文詞枚舉出來,做進(jìn)一步考慮。記f
7、k(C)為枚舉單句中文釋義操作。該操作將一個(gè)中文句C中一切長(zhǎng)度分別為1,2,3,...,k的中文子串截取,濾除包含標(biāo)點(diǎn)符號(hào)的子串。那么,對(duì)于英文單詞w,其所有可能中文釋義集合Fw定義為:[Fw=fk(C)(4)(E;C)2W怎樣從Fw中選出w的最可能的釋義呢?這里采取的方法是對(duì)每個(gè)詞進(jìn)行評(píng)分。對(duì)于給定語料庫(kù)M、給定英文查詢?cè)~w、給定的候選中文釋義c,定義:2基頻數(shù)nw:查詢英文單詞w在M的出現(xiàn)次數(shù),基頻數(shù)用來作為評(píng)分的參考。2共生頻數(shù)nw;c:候選中文釋義c在W的出現(xiàn)次數(shù)。2衍生頻數(shù)nc:候選中文釋義c在M的出現(xiàn)次數(shù)。分別定義共生概率p(c)
8、,衍生概率q(c):nw;cp(c)=(5)nwncq(c)=(6)nw;c如上分析可知,p值高表明出現(xiàn)w的句也出現(xiàn)c的概率大;q值低表明不出現(xiàn)w的句出現(xiàn)c的概率小