基于雙語對(duì)齊語料--英漢詞典的自動(dòng)生成.pdf

ID：52469655

大?。?85.41 KB

頁(yè)數(shù)：10頁(yè)

時(shí)間：2020-03-27

基于雙語對(duì)齊語料--英漢詞典的自動(dòng)生成.pdf_第1頁(yè)

基于雙語對(duì)齊語料--英漢詞典的自動(dòng)生成.pdf_第2頁(yè)

基于雙語對(duì)齊語料--英漢詞典的自動(dòng)生成.pdf_第3頁(yè)

基于雙語對(duì)齊語料--英漢詞典的自動(dòng)生成.pdf_第4頁(yè)

基于雙語對(duì)齊語料--英漢詞典的自動(dòng)生成.pdf_第5頁(yè)

資源描述：

《基于雙語對(duì)齊語料--英漢詞典的自動(dòng)生成.pdf》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、基于雙語對(duì)齊語料－－英漢詞典的自動(dòng)生成中文信息處理Project：0124120杜浩January16,2005摘摘摘要要要本文提出一種自動(dòng)生成英漢詞典的方法。該方法基于已對(duì)齊的雙語語料庫(kù)，針對(duì)查詢英文單詞，枚舉其可能的中文釋義，從中挖掘與該查詢英文單詞共生頻率高，但自身衍生頻率低的中文釋義，生成詞典。本方法在《圣經(jīng)恢復(fù)本－中英對(duì)照版》語料庫(kù)上實(shí)驗(yàn)，成功提取了5668單詞的中文釋義，并達(dá)到了1級(jí)釋義正確率60%和4級(jí)釋義的正確率88%的評(píng)估結(jié)果。1引引引言言言英漢詞典，作為溝通中文和英語兩種不同語言之間的橋梁，為中國(guó)與世界的交流做出了巨大貢獻(xiàn)

2、。它的編制和生產(chǎn)已經(jīng)產(chǎn)品化。英漢詞典編制的基礎(chǔ)是中英文對(duì)于同一事物的兩種不同表達(dá)。設(shè)想世界上第一本英漢詞典的編制，由一個(gè)即懂中文又懂英文，但不知道中英文單詞對(duì)應(yīng)關(guān)系的人，經(jīng)過長(zhǎng)期對(duì)兩種語言的學(xué)習(xí)、對(duì)比，他總結(jié)出對(duì)應(yīng)的規(guī)律，發(fā)現(xiàn)在表達(dá)有關(guān)鉛筆的時(shí)候，例如“Thereisapencilonthedesk.”、“Ihaveapencil.”、“Thepencilisbeautiful.”，都含有“pencil”這一詞。于是得出結(jié)論，“pencil”很可能指得就是“鉛筆”。于是，將這一對(duì)應(yīng)關(guān)系寫下來，作為詞典中的一個(gè)詞條。無論是印刷版詞典，或是當(dāng)今廣

3、為使用的類似“金山詞霸”這樣的電子詞典，目前為止都是人工編制的。人經(jīng)過對(duì)中英文的對(duì)比、總結(jié)，慢慢的發(fā)現(xiàn)詞條之間的對(duì)應(yīng)關(guān)系。人工智能領(lǐng)域研究和發(fā)展的今天，我們可以嘗試用計(jì)算機(jī)來做這一件事。這可以看作機(jī)器翻譯[1]的逆過程（一些早期的機(jī)器翻譯算法，根據(jù)詞典生成譯文。而本文是根據(jù)雙語對(duì)照的譯文，生成詞典）。這一工作的基礎(chǔ)，是大量的雙語對(duì)齊語料庫(kù)，用來給計(jì)算機(jī)“學(xué)習(xí)”，恰好類似于第一個(gè)編英漢詞典的人也需要學(xué)習(xí)大量對(duì)于同一事1物的雙語表達(dá)。引文[2]提出一種實(shí)現(xiàn)方案，在其實(shí)現(xiàn)步驟中，需要完成中文分詞、釋義詞典過濾。然而，中文分詞需要用到漢語詞典，與此同

4、時(shí)并不是語言中所有的詞出現(xiàn)在詞典中，音譯英文姓名、地名往往不存在漢語詞典中，分詞的結(jié)果會(huì)使這些詞的翻譯不準(zhǔn)確。另一方面，我們不妨假定詞典生成這一工作從頭做起，而不使用部分已釋義的“釋義詞典”。本文給出一個(gè)行之有效的統(tǒng)計(jì)方法，自動(dòng)生成英法詞典。此方法僅依賴對(duì)齊的雙語語庫(kù)，而不采用其它資源，在《圣經(jīng)恢復(fù)本－中英文對(duì)照版》上取得良好的實(shí)驗(yàn)結(jié)果。2英英英漢漢漢詞詞詞典典典自自自動(dòng)動(dòng)動(dòng)生生生成成成方方方法法法在這一節(jié)里，提出一種基于中英文對(duì)齊語料庫(kù)的英漢詞典自動(dòng)生成的方法?；谶@樣一個(gè)原始的思想：給出英文單詞，在雙語語料庫(kù)中查出所有包含該詞的句，從這些

5、句的中文翻譯中，尋找高頻出現(xiàn)的公共詞語，另一方面，從中取出在整個(gè)語料庫(kù)中低頻出現(xiàn)的，這些詞語與該英文單詞共生共滅，它們有較大的概率成為該單詞的中文釋義。2.1給給給定定定英英英文文文單單單詞詞詞，，，挖挖挖掘掘掘中中中文文文翻翻翻譯譯譯在敘述這一過程之前，我們假定對(duì)齊的雙語語料庫(kù)已采集好，共有n句，用集合M表示，M=f(E1;C1);(E2;C2);:::;(En;Cn)g(1)其中(Ei;Ci)表示一句英文Ei對(duì)應(yīng)它的中文句Ci。給定查詢單詞w，第一步操作是創(chuàng)建候選釋義集。例如給出查詢單詞“China”，認(rèn)為它的可能的中文釋義“中國(guó)”一定出

6、現(xiàn)在包含“China”的那些句子的中文翻譯里，于是，先采集出這些句。令W是英文句中包含w的句集合，W=f(E;C)jw2E^(E;C)2Mg(2)2顯然，W2M(3)下一步是從候選句中枚舉所有的候選中文詞。如果一句中文包含m個(gè)漢字，如果認(rèn)為中文詞可以任意長(zhǎng)，則可以從這一句中搜取出m(m+1)=2個(gè)不同位置和長(zhǎng)度的子串。由于O(m2)的中文詞量，數(shù)據(jù)量過大，另一方面，根據(jù)我們平常的經(jīng)驗(yàn)，在詞典中出現(xiàn)的常用中文詞長(zhǎng)度不會(huì)太長(zhǎng)，于是可以做一點(diǎn)假設(shè)，設(shè)定閾值k為候選中文詞的最大長(zhǎng)度。給定一個(gè)中文句，將長(zhǎng)度小于等于k的中文詞枚舉出來，做進(jìn)一步考慮。記f

7、k(C)為枚舉單句中文釋義操作。該操作將一個(gè)中文句C中一切長(zhǎng)度分別為1,2,3,...,k的中文子串截取，濾除包含標(biāo)點(diǎn)符號(hào)的子串。那么，對(duì)于英文單詞w，其所有可能中文釋義集合Fw定義為：[Fw=fk(C)(4)(E;C)2W怎樣從Fw中選出w的最可能的釋義呢？這里采取的方法是對(duì)每個(gè)詞進(jìn)行評(píng)分。對(duì)于給定語料庫(kù)M、給定英文查詢?cè)~w、給定的候選中文釋義c，定義：2基頻數(shù)nw：查詢英文單詞w在M的出現(xiàn)次數(shù)，基頻數(shù)用來作為評(píng)分的參考。2共生頻數(shù)nw;c：候選中文釋義c在W的出現(xiàn)次數(shù)。2衍生頻數(shù)nc：候選中文釋義c在M的出現(xiàn)次數(shù)。分別定義共生概率p(c)

8、，衍生概率q(c)：nw;cp(c)=(5)nwncq(c)=(6)nw;c如上分析可知，p值高表明出現(xiàn)w的句也出現(xiàn)c的概率大；q值低表明不出現(xiàn)w的句出現(xiàn)c的概率小

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 10



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于雙語對(duì)齊語料--英漢詞典的自動(dòng)生成.pdf

基于雙語對(duì)齊語料--英漢詞典的自動(dòng)生成.pdf

相關(guān)文章

相關(guān)標(biāo)簽