CTB-詞性標(biāo)注中文版翻譯.doc

CTB-詞性標(biāo)注中文版翻譯.doc

ID:55550226

大?。?1.50 KB

頁數(shù):8頁

時間:2020-05-16

CTB-詞性標(biāo)注中文版翻譯.doc_第1頁
CTB-詞性標(biāo)注中文版翻譯.doc_第2頁
CTB-詞性標(biāo)注中文版翻譯.doc_第3頁
CTB-詞性標(biāo)注中文版翻譯.doc_第4頁
CTB-詞性標(biāo)注中文版翻譯.doc_第5頁
資源描述:

《CTB-詞性標(biāo)注中文版翻譯.doc》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、CTB詞性標(biāo)注指南第一章引言中文幾乎沒有屈折語素。譬如,詞語不隨時態(tài)、格、人稱和數(shù)量而曲折變化。因此,對特定文本中的詞進(jìn)行詞性標(biāo)注往往都很困難。這個文件是專為賓州中文樹庫項目[XPS+00]所設(shè)計的。這個項目的目標(biāo)是構(gòu)建一個十萬詞的有語法托架的中文官話文本語料庫。標(biāo)注包括兩個步驟:第一階段是中文分詞和詞性標(biāo)注,第二階段是句法托架。每個步驟包括至少兩個經(jīng)過,即數(shù)據(jù)庫由一個標(biāo)注者標(biāo)注,結(jié)果文件由另一個標(biāo)注者檢查。詞性標(biāo)注指南,就如分詞指南和托架指南,在項目進(jìn)行過程中已經(jīng)修訂了多次。到目前為止,我們已經(jīng)在我們的網(wǎng)站上發(fā)行了三個版本:第一部草作完成于1998年12月,在第一個中文分詞和詞性標(biāo)注

2、文件發(fā)行后;第二部草作完成于1999年3月,在第二個中文分詞和詞性標(biāo)注文件發(fā)行后;這個文件,是第三部草作,修訂于第二個托架文件發(fā)行后。在這個第三部草作中,與前兩部草作相比,主要改變在于:(1)我們增加了一章引言來解釋指南中存在的一些基本原理;(2)我們增加了對中文詞語的注釋;(3)我們把這個指南寫成了一個技術(shù)性報告,報告被發(fā)表于賓夕法尼亞大學(xué)認(rèn)知科學(xué)研究機(jī)構(gòu)(IRCS)。1.1標(biāo)注標(biāo)準(zhǔn)詞性標(biāo)注(POS)的核心問題是詞性標(biāo)注是否應(yīng)該基于意義或者句法分布來標(biāo)注。這個問題自1950年以來就被熱烈爭論到現(xiàn)在,并且始終存在兩種不同的觀點(diǎn)。譬如,中文詞“毀滅”可以被翻譯為英文中的destroy或d

3、estroys或destroyed或destroying或destruction,并且如它英文所對應(yīng)的詞一樣使用。根據(jù)第一種觀點(diǎn),詞性標(biāo)注應(yīng)該只基于意義。因為詞的意義在它所有的用法中基本都是一樣的,它就應(yīng)該總是被標(biāo)注為一個動詞。第二種觀點(diǎn)是詞性標(biāo)注應(yīng)該由詞的句法分布來決定。當(dāng)“毀滅”是一個名詞短語的首詞,它在那個文本中就應(yīng)該被標(biāo)注為一個名詞;當(dāng)“毀滅”是一個動詞短語的首詞,它就應(yīng)該被標(biāo)注為一個動詞。我們選擇了句法分布作為我們詞性標(biāo)注的主要標(biāo)準(zhǔn),因為這與當(dāng)代語言學(xué)理論所采納的原則一致,譬如X-bar理論和GB理論中的首字投射概念。由于很多中文動詞也出現(xiàn)在名詞位置,因此需要兩個詞性標(biāo)注標(biāo)記

4、,這就導(dǎo)致使用句法分布方法將會擴(kuò)大詞典的規(guī)模,因此這個原因常被用來反對句法分布方法。我們認(rèn)為這個觀點(diǎn)不足以讓人信服,主要有如下兩個理由。首先,兩個詞性標(biāo)注標(biāo)記可以讓我們區(qū)別可以出現(xiàn)在名詞位置的動詞和不可以出現(xiàn)名詞位置的動詞(譬如單音詞動詞和重疊詞形式的動詞如AABB,A不A)。如果存在動詞可以出現(xiàn)在名詞位置或者不能出現(xiàn)在名詞位置的實詞虛化現(xiàn)象,這些實詞虛化可以被看做構(gòu)形規(guī)則,這會使得詞典自動被擴(kuò)大。另一方面,如果不存在這樣的實詞虛化現(xiàn)象并且名詞化過程大部分都很特殊,這就驗證了一個觀點(diǎn):這是一個詞匯現(xiàn)象并且那些可以被名詞化的動詞在詞典中應(yīng)該有兩個詞性標(biāo)注標(biāo)記。其次,很多動詞可以出現(xiàn)在名詞

5、位置的現(xiàn)象并不只存在于中文,在其他語言中設(shè)立的標(biāo)準(zhǔn)也是給予這些詞兩個標(biāo)記。1.2詞性標(biāo)注標(biāo)記集我們的詞性標(biāo)注標(biāo)記集有33種標(biāo)記:動詞,形容詞(4):VA,VC,VE,VV。名詞(3):NR,NT,NN。定位(1):LC。代詞(1):PN。限定詞和數(shù)詞(3):DT,CD,OD。度量詞(1):M。副詞(1):AD介詞(1):P。連詞(2):CC,CS。助詞(8):DEC,DEG,DER,DEV,SP,AS,ETC,SP,MSP。其他(8):IJ,ON,PU,JJ,F(xiàn)W,LB,SB,BA。1.3詞性標(biāo)注標(biāo)記集假設(shè)我們從一個大部分人認(rèn)同的小型詞性標(biāo)注標(biāo)記集開始,其中包括名詞、動詞、副詞、介詞等

6、的標(biāo)記。問題在于我們是否應(yīng)該用一組更為具體的標(biāo)記{T1,T2,…,Ti,…,Tn}來取代每個標(biāo)記T。有如下幾個因素需要考慮:·通常,由于有相同詞性標(biāo)注標(biāo)記的詞都具有極為相似的句法分布,標(biāo)注需要一個很大的標(biāo)記集。另一方面,標(biāo)記集越大,標(biāo)注起來越困難。因為標(biāo)注者需要記住更多標(biāo)記、更多測試并且應(yīng)用一致。因此,當(dāng)我們決定一個標(biāo)記集時,我們需要作出妥協(xié)?!ぴO(shè)置一組(T)作為標(biāo)有詞性標(biāo)注標(biāo)記T的詞的標(biāo)記集。如果沒有好的測試把標(biāo)記集(T)中的每個詞分配給任一標(biāo)記Ti,并且{Ti}相比T沒有提供更多有意義的信息,那么我們就不會把T分割成標(biāo)記集{Ti}?!と绻希═)是一個閉合標(biāo)記集并且對于每組(i,

7、j),標(biāo)記集(Ti)和(Tj)的交集為空,那么通過一個簡單的轉(zhuǎn)換程序可以把詞/T自動取代為詞/Ti。因此,如果我們想用{Ti}中的具體標(biāo)記來標(biāo)注詞語,這個轉(zhuǎn)換過程可以由程序來自動完成,而不是通過標(biāo)注者手動轉(zhuǎn)換。1.4處理困難案例有時候,我們不是很確定一個文本中的某個詞是否應(yīng)該被標(biāo)注為X或Y。如果我們確定這個詞不在標(biāo)記集(X)和(Y)的交集中,那么我們可以簡單選擇一個標(biāo)記如X來標(biāo)注這個詞,如果有需要也可以再用Y來取代X。譬如,詞語“許多”在“許多

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。