資源描述:
《當(dāng)代漢語文本語料庫(kù)分詞詞性標(biāo)注加工規(guī)范.doc》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、973當(dāng)代漢語文本語料庫(kù)分詞、詞性標(biāo)注加工規(guī)范(草案)山西大學(xué)從1988年開始進(jìn)行漢語語料庫(kù)的深加工研究,首先是對(duì)原始語料進(jìn)行切分和詞性標(biāo)注,1992年制定了《信息處理用現(xiàn)代漢語文本分詞規(guī)范》。經(jīng)過多年研究和修改,2000年又制定出《現(xiàn)代漢語語料庫(kù)文本分詞規(guī)范》和《現(xiàn)代漢語語料庫(kù)文本詞性體系》。這次承擔(dān)973任務(wù)后制定出本規(guī)范。本規(guī)范主要吸收了語言學(xué)家的研究成果,并兼顧各家的詞性分類體系,是一套從信息處理的實(shí)際要求出發(fā)的當(dāng)代漢語文本加工規(guī)范。本加工規(guī)范適用于漢語信息處理領(lǐng)域,具有開放性和靈活性,以便適用于不同的中文信息處理系統(tǒng)?!?7
2、3當(dāng)代漢語文本語料庫(kù)分詞、詞性標(biāo)注加工規(guī)范》是根據(jù)以下資料提出的。1.《信息處理用現(xiàn)代漢語分詞規(guī)范》,中國(guó)國(guó)家標(biāo)準(zhǔn)GB13715,1992年2.《信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》,中華人民共和國(guó)教育部、國(guó)家語言文字工作委員會(huì)2003年發(fā)布3.《現(xiàn)代漢語語料庫(kù)文本分詞規(guī)范》(Ver3.0),1998年北京語言文化大學(xué)語言信息處理研究所清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系4.《現(xiàn)代漢語語料庫(kù)加工規(guī)范——詞語切分與詞性標(biāo)注》,1999年北京大學(xué)計(jì)算語言學(xué)研究所5.《信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》,2002年,教育部語言文字應(yīng)用研究所計(jì)算語言學(xué)研究室
3、6.《現(xiàn)代漢語語料庫(kù)文本分詞規(guī)范說明》,2000年山西大學(xué)計(jì)算機(jī)科學(xué)系山西大學(xué)計(jì)算機(jī)應(yīng)用研究所7.《資訊處理用中文分詞標(biāo)準(zhǔn)》,1996年,臺(tái)灣計(jì)算語言學(xué)學(xué)會(huì)一、分詞總則1.詞語的切分規(guī)范盡可能同中國(guó)國(guó)家標(biāo)準(zhǔn)GB13715《信息處理用現(xiàn)代漢語分詞規(guī)范》(以下簡(jiǎn)稱為“分詞規(guī)范”)保持一致。本規(guī)范規(guī)定了對(duì)現(xiàn)代漢語真實(shí)文本(語料庫(kù))進(jìn)行分詞的原則及規(guī)則。追求分詞后語料的一致性(consistency)是本規(guī)范的目標(biāo)之一。2.本規(guī)范中的“分詞單位”主要是詞,也包括了一部分結(jié)合緊密、使用穩(wěn)定的詞組以及在某些特殊情況下可能出現(xiàn)在切分序列中的孤立的語
4、素或非語素字。本文中仍用“詞”來稱謂“分詞單位”。3.分詞中充分考慮形式與意義的統(tǒng)一。形式上要看一個(gè)結(jié)構(gòu)體的組成成分能否單用,結(jié)構(gòu)體能否擴(kuò)展,組成成分的結(jié)構(gòu)關(guān)系,以及結(jié)構(gòu)體的音節(jié)結(jié)構(gòu);意義上要看結(jié)構(gòu)體的整體意義是否具有組合性。4.本規(guī)范規(guī)定的分詞原則及規(guī)則,既要適應(yīng)語言信息處理與語料庫(kù)語言學(xué)研究的需要,又力求與傳統(tǒng)的語言學(xué)研究成果保持一致;既要適合計(jì)算機(jī)自動(dòng)處理,又要便于人工校對(duì)。5.分詞時(shí)遵循從大到小的原則逐層順序切分。一時(shí)難以判定是否切分的結(jié)構(gòu)體,暫不切分。二、詞性標(biāo)注總則信息處理用現(xiàn)代漢語詞性標(biāo)注主要原則有三個(gè):(1)語法功能原
5、則。語法功能是詞類劃分的主要依據(jù)。詞的意義不作為劃分詞類的主要依據(jù),但有時(shí)也起著某些參考作用。(2)允許有兼類。根據(jù)各種統(tǒng)計(jì)研究,現(xiàn)代漢語的某些詞具有多種語法功能,但這多種功能的分布概率不同。在信息處理用現(xiàn)代漢語詞類體系中,各詞類的確立要根據(jù)詞的主要語法功能。(3)詞類加工規(guī)范的標(biāo)記集中的大類應(yīng)能覆蓋現(xiàn)代漢語的全部詞。為滿足計(jì)算機(jī)處理真實(shí)文本詞類標(biāo)注的需要,本規(guī)范所定義的標(biāo)記集,覆蓋了比詞小的單位,如前接成分(前綴)、后接成分(后綴)、語素字、非語素字等;比詞更大的單位,如習(xí)用語、簡(jiǎn)稱和略語,以及標(biāo)點(diǎn)符號(hào)、非漢字符號(hào)等。三、詞類標(biāo)記集
6、本規(guī)范的詞類標(biāo)記集采用《信息處理用現(xiàn)代漢語詞類標(biāo)記規(guī)范》的大類,只增加了部分細(xì)類。本規(guī)范的詞類標(biāo)記集規(guī)定,每個(gè)分詞單位的標(biāo)記由英文字母串構(gòu)成。標(biāo)記的第一位代碼,表示信息處理用現(xiàn)代漢語詞類的基本詞類,共20類,標(biāo)記的第二、三位代碼,表示信息處理用現(xiàn)代漢語基本詞類下的細(xì)類。詞類分別為:(1)名詞n:普通名詞(n)時(shí)間名詞(nt)方位名詞(nd)處所名詞(nl)人名(nh)漢族或類漢族人名(人名nhh:姓nhf,名nhg)音譯名或類音譯名(nhy)日本人名(nhr)其他(nhw):如綽號(hào),筆名,尊稱等。地名(ns)族名(nn)團(tuán)體機(jī)構(gòu)名(n
7、i)其他專有名詞(nz)(2)動(dòng)詞v:普通動(dòng)詞(v)能愿動(dòng)詞(vu)趨向動(dòng)詞(vd)系動(dòng)詞(vl)(3)形容詞:性質(zhì)形容詞(aq)狀態(tài)形容詞(as)(4)區(qū)別詞f(5)數(shù)詞m(6)量詞q(7)副詞d(8)代詞r(9)介詞p(10)連詞c(11)助詞u(12)嘆詞e(13)擬聲詞o(14)習(xí)用語i名詞性習(xí)用語(in)動(dòng)詞性習(xí)用語(iv)形容詞性習(xí)用語(ia)連詞性習(xí)用語(ic)(15)簡(jiǎn)稱和略語j名詞性簡(jiǎn)稱和略語jn動(dòng)詞性簡(jiǎn)稱和略語jv形容詞性簡(jiǎn)稱和略語ja(16)前接成分h(17)后接成分k(18)語素字g(19)非語素字x(20)其
8、它w:標(biāo)點(diǎn)符號(hào)(wp)非漢字字符串(ws)其他未知的符號(hào)(wu)四、細(xì)則1.本規(guī)范參照GB/T13715-92的做法,以詞類為綱對(duì)各類單位作具體切分與詞性標(biāo)注規(guī)定。2.本次加工規(guī)定,凡是收入詞表中的詞語,不再遵循本規(guī)范進(jìn)