資源描述:
《北大切分及詞性標(biāo)注參考》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。
1、一.切分從字?jǐn)?shù)考慮,對(duì)兩個(gè)字的組合較寬地看作是一個(gè)切分單位,三個(gè)字的較嚴(yán),四個(gè)字以上的若不是成語(yǔ)、習(xí)用語(yǔ)一般不看作是一個(gè)切分單位。(1)人名:nr(2)地名:ns(3)團(tuán)體、機(jī)構(gòu)、組織的專有名稱:nt(4)除人名、國(guó)名、地名、團(tuán)體、機(jī)構(gòu)、組織以外的其他專有名詞都標(biāo)以nz,具體規(guī)定如表示民族的“族”、表示語(yǔ)言的“語(yǔ)”,表示文字的“文”,則不切分。(5)數(shù)詞與數(shù)量詞組(6)時(shí)間詞(7)單音節(jié)代詞“本”、“每”、“各”、“諸”后接單音節(jié)名詞時(shí),和后接的單音節(jié)名詞合為代詞;當(dāng)后接的名詞有2個(gè)以上音節(jié)時(shí),應(yīng)予切分。(8)區(qū)別
2、詞如①一般為切分單位,并標(biāo)以詞性b。女/b司機(jī)/n,金/b手鐲/n(9)動(dòng)詞加動(dòng)詞或動(dòng)詞加形容詞構(gòu)成的述補(bǔ)結(jié)構(gòu)(10)四個(gè)字以上的短語(yǔ),通常應(yīng)切分。(11)超過(guò)四個(gè)字的成語(yǔ)或習(xí)用語(yǔ),一般不予切分,暫不要求劃分子類。(12)表達(dá)一個(gè)完整概念或集合的簡(jiǎn)稱或縮略語(yǔ)為一個(gè)切分單位,標(biāo)以j,也要求根據(jù)其在句子中的功能進(jìn)一步標(biāo)注子類。子類的劃分原則同成語(yǔ)和習(xí)用語(yǔ)。(13)文本中非漢字的字符串的處理意見(jiàn)如①已經(jīng)約定俗成的或科學(xué)技術(shù)中已通用的符號(hào)保持原有的意義,根據(jù)其原有的意義決定相應(yīng)的標(biāo)記。阿拉伯?dāng)?shù)字:121/m號(hào)/q房間/n2
3、000年/t8月/t15日/t單獨(dú)的羅馬數(shù)字:Ⅱ/mⅠⅩ/mⅩⅤ/m英文字母(或字母組合)代表常用的度量單位:A代表“安培”,二.切分標(biāo)注結(jié)合(1)重疊⑴“AA”重疊形①單字動(dòng)詞重疊式AA作為一個(gè)切分單位,并標(biāo)注為動(dòng)詞詞性v。②單字形容詞重疊式AA,有的成詞,有的不成詞。如后面不緊跟“的”就成詞,作為一個(gè)切分單位,通常為副詞d。①單字名詞重疊式AA,為一個(gè)切分單位,并標(biāo)注為名詞詞性n。(2)“AAB”重疊形(3)“ABB”重疊形⑷“AABB”重疊形⑸“A里AB”和“A不AB”的詞形⑹“ABAB”重疊形⑺雙音節(jié)擬聲詞
4、的“ABAB”重疊形式同其他詞類一樣,切分開(kāi)5.2附加⑴前接成分+語(yǔ)素或詞由“前接成分+語(yǔ)素或詞”構(gòu)成的合成詞,為一個(gè)切分單位。⑵語(yǔ)素或詞+后接成分5.3復(fù)合詞“復(fù)合”方式可將兩個(gè)構(gòu)詞成分結(jié)合成一個(gè)新詞。⑴二字名詞①“名+名”的定中結(jié)構(gòu),一般為一個(gè)切分單位。②“動(dòng)+名”如果是定中結(jié)構(gòu),一般為一個(gè)切分單位。③“動(dòng)+名”如果是述賓結(jié)構(gòu),則是短語(yǔ),應(yīng)切分開(kāi)。④“形+名”的定中結(jié)構(gòu),若中間不能插“的”或插“的”后意義改變,則作為一個(gè)切分單位;否則,應(yīng)予切分。⑵三字名詞①“動(dòng)(雙音)+名(單音)”的定中結(jié)構(gòu),一般為一個(gè)切分單
5、位。②“名(雙音)+名(單音)”結(jié)構(gòu),通常為一個(gè)切分單位,但彈性較大,若前面的雙音節(jié)名詞與后面的單音節(jié)名詞組合后意義不變,也可以分開(kāi)③“名(單音)+名(雙音)”結(jié)構(gòu),通常為一個(gè)切分單位,但彈性較大,若前面的單音節(jié)名詞與后面的雙音節(jié)名詞組合后意義不變,也可以分開(kāi)。④“形(單音)+名(雙音)”的定中結(jié)構(gòu),處理原則同二個(gè)字的“形+名”組合。⑤“形(雙音)+名(單)”的定中結(jié)構(gòu),處理原則同④。⑶其他①單純方位詞+名(單音)的定中結(jié)構(gòu),為一個(gè)切分單位。所組成的合成詞一般是處所詞,但在某些特殊情況下可能是名詞或時(shí)間詞。明顯帶排
6、行的親屬稱謂要切分開(kāi),分不清楚的則不切開(kāi)。一.標(biāo)注規(guī)范《規(guī)范2001》的詞性標(biāo)注除了使用《語(yǔ)法信息詞典》中的26個(gè)詞類代碼(名詞n、時(shí)間詞t、處所詞s、方位詞f、數(shù)詞m、量詞q、區(qū)別詞b、代詞r、動(dòng)詞v、形容詞a、狀態(tài)詞z、副詞d、介詞p、連詞c、助詞u、語(yǔ)氣詞y、嘆詞e、擬聲詞o、成語(yǔ)i、習(xí)用語(yǔ)l、簡(jiǎn)稱j、前接成分h、后接成分k、語(yǔ)素g、非語(yǔ)素字x、標(biāo)點(diǎn)符號(hào)w)外,增加了以下3類標(biāo)記:①專有名詞的分類標(biāo)記,即人名nr,地名ns,團(tuán)體機(jī)關(guān)單位名稱nt,其他專有名詞nz,英語(yǔ)等其他非漢字的字符串nx。②語(yǔ)素的子類標(biāo)記
7、,即名語(yǔ)素Ng,動(dòng)語(yǔ)素Vg,形容語(yǔ)素Ag,時(shí)語(yǔ)素Tg,副語(yǔ)素Dg等;由于標(biāo)注時(shí)只使用這些子類標(biāo)記,故語(yǔ)素標(biāo)記g不在標(biāo)注語(yǔ)料庫(kù)中出現(xiàn)。③動(dòng)詞和形容詞的特殊用法標(biāo)記,即名動(dòng)詞vn(動(dòng)詞的名詞用法),名形詞an(形容詞的名詞用法),副動(dòng)詞vd(動(dòng)詞的副詞用法),副形詞ad(形容詞的副詞用法)。合計(jì)約40個(gè)。1.常見(jiàn)兼類詞的詞性選擇⑴n-q兼類情況。漢語(yǔ)中的一些名詞(主要是單音節(jié)名詞)可以兼作量詞,對(duì)于這些詞,依據(jù)上下文來(lái)確定句子中的詞的詞性。①數(shù)詞+n-q+n,取q。一/m車/qr煤/n,三/m桶/qr水/n②“這”,“
8、那”,“每”等指示代詞+n-q+n,取q。這/rz床/qe被子/n,這/r門/qz功課/n⑵a-v兼類情況①若該詞在句子中帶了真賓語(yǔ),則標(biāo)為v。②若該詞受“很”一類程度副詞修飾,則標(biāo)為a。③若該詞修飾名詞作定語(yǔ),則一般應(yīng)標(biāo)為a。④若該詞作動(dòng)詞的補(bǔ)語(yǔ),則應(yīng)標(biāo)為a。⑶v-n兼類情況實(shí)際上指的是廣義兼類現(xiàn)象[2]。當(dāng)該詞表示一種動(dòng)作時(shí),后面帶真賓語(yǔ),則是v;當(dāng)它指