資源描述:
《基於知網(wǎng)的語料標(biāo)注手冊(cè)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、基於知網(wǎng)的語料標(biāo)注手冊(cè)顏國(guó)偉香港科技大學(xué)計(jì)算機(jī)科學(xué)系譚慧敏新加坡南洋理工大學(xué)中華語言文化中心(一九九九年八月第一版)63目錄基於知網(wǎng)的語料標(biāo)注手冊(cè)1一、引言3二、概念定義的格式及標(biāo)識(shí)符號(hào)的用法3I.概念定義的格式3II.標(biāo)識(shí)符號(hào)的用法5III.附加屬性的先後次序8三、語義辨別方法9I.語境9II.參攷知網(wǎng)的上下位描述詞關(guān)係12III.參攷知網(wǎng)的動(dòng)態(tài)角色14IV.參攷知網(wǎng)描述詞所對(duì)應(yīng)的英文描述15V.虛詞辨析15四、未登錄概念、新增概念的定義方法21I.人名21II.地名22III.建築物名25IV.組織名25V
2、.數(shù)量27VI.時(shí)間29VII.實(shí)體名稱29VIII.外文或音譯詞30IX.緊縮詞31X.單字縮略詞33XI.敬語35XII.增補(bǔ)概念35五、中研院語料的再處理36I.再切分36II.反切分38III.修改錯(cuò)誤的切分38iv.修改切分不一致之處39v.修改手民之誤39六、知網(wǎng)仍未解決的問題40I.一個(gè)定義是另一定義的子集合40II.冗餘定義40III.簡(jiǎn)繁轉(zhuǎn)換出現(xiàn)的遺漏40鳴謝41參攷文獻(xiàn)41附錄(一):臺(tái)灣之行政區(qū)劃(1958年)42附錄(二):一對(duì)多的簡(jiǎn)繁字對(duì)照表5063一、引言知網(wǎng)是面向計(jì)算機(jī)的雙語常識(shí)知
3、識(shí)庫,為創(chuàng)建人董振東先生研究逾十載的重要成果,提供了設(shè)計(jì)真正的智能軟件所需的知識(shí)。知網(wǎng)共收錄了50220個(gè)漢語詞語,所含蓋的概念總量達(dá)62174個(gè),目前尚在擴(kuò)充中。作為面向漢語計(jì)算需求的知識(shí)庫,知網(wǎng)詳盡地描述了概念之間的關(guān)係,以及概念所具有的屬性之間的關(guān)係,其中兼及漢語詞目在英語對(duì)應(yīng)使用中的語義概念。本文作者利用知網(wǎng)來標(biāo)注臺(tái)灣中央研究院平衡語料庫(第三版)中的部分語料。臺(tái)灣中央研究院平衡語料庫(第三版)共有五百萬目詞,我們抽取了其中有關(guān)社會(huì)犯罪的報(bào)導(dǎo),共三萬六千目詞。其中三萬目詞,我們利用知網(wǎng)進(jìn)行人工標(biāo)注。茲將
4、標(biāo)注的方法,包括概念定義的格式、標(biāo)識(shí)符號(hào)的用法、詞義辨別方法、未登錄概念及新增概念的定義方法等問題摘要報(bào)告,求正方家以匡不逮,亦冀方便其他學(xué)者進(jìn)一步瞭解知網(wǎng),在利用知網(wǎng)進(jìn)行語料標(biāo)注時(shí)能取得更高的一致性和準(zhǔn)確性。二、概念定義的格式及標(biāo)識(shí)符號(hào)的用法為了使說明更清晰,以下是本文所採(cǎi)用的特別標(biāo)記的定義:特別標(biāo)記定義<可有項(xiàng)>可有但非必須的描述《多數(shù)項(xiàng)》可以有超過一個(gè)同類的描述單一項(xiàng)沒有任何特別標(biāo)記的描述表示單一、必要的描述項(xiàng)一
5、項(xiàng)二第一項(xiàng)描述或者是第二項(xiàng)描述‘特徵’本文中橫式單引號(hào)‘’用來表示知網(wǎng)裏有嚴(yán)格定義的知識(shí)詞典
6、描述語言。固定的特徵I.概念定義的格式對(duì)實(shí)詞而言,知網(wǎng)的特徵首先分兩層:主要特徵及次要特徵,前者共分五類:事件類、事物類、部件類、屬性和數(shù)量類、屬性值和數(shù)量值類,後者包括屬性的具體分類及這些類別可以有的值見知網(wǎng)網(wǎng)頁裡頭的文件:《概念的次要特徵(1)》、《概念的次要特徵(2)》。,另加88個(gè)表示概念特性的描述見知網(wǎng)網(wǎng)頁裡頭的文件:《概念的次要特徵(3)》。。63概念類別定義格式備注事件主特徵1,<《動(dòng)態(tài)角色=主特徵2
7、次特徵》>,<《<標(biāo)識(shí)符>主特徵2
8、次特徵》>,複雜事件多半有至少一個(gè)動(dòng)態(tài)角色事物主特徵1,<《
9、<標(biāo)識(shí)符>主特徵2
10、次特徵》>,若主特徵1為“事情”,接著應(yīng)標(biāo)注該事情的主要特徵,無須借助於標(biāo)識(shí)符號(hào)。若主特徵1與某事件存有一動(dòng)態(tài)角色關(guān)係,則利用標(biāo)識(shí)符表達(dá)。部件‘部件’,%主特徵,次特徵,主特徵標(biāo)注該部件所屬的整體的類型。次特徵標(biāo)注該部件在整體中的部位或功能。屬性數(shù)量‘屬性’,次特徵1,&主特徵
11、&次特徵2,‘?dāng)?shù)量’,次特徵1,&主特徵
12、&次特徵2,次特徵1標(biāo)注該屬性和數(shù)量的具體屬性類或數(shù)量類。主特徵或次特徵2標(biāo)注該具體屬性或數(shù)量的宿主的類型。屬性值數(shù)量值‘屬性值’,次特徵1,<次特徵2>,‘?dāng)?shù)量值’,次特徵
13、1,<次特徵2>,次特徵1標(biāo)注該屬性值或數(shù)量值所指向的屬性或數(shù)量特徵。次特徵2標(biāo)注該屬性值或數(shù)量值的具體值。虛詞的類別包括:副狀、并列、主從、助詞和單位詞,其定義格式列如下:概念類別定義格式備注單位詞i.單位ii.名量‘單位’,&次特徵
14、&主特徵,‘名量’,&次特徵
15、&主特徵,63i.動(dòng)量‘動(dòng)量’,&次特徵
16、&主特徵,次特徵或主特徵標(biāo)注該單位、名量、動(dòng)量所指向的屬性或事物的類型。餘下三類{次特徵
17、動(dòng)態(tài)角色},前四個(gè)虛詞類別的詳細(xì)分類請(qǐng)參閱知網(wǎng)網(wǎng)頁上的文件《次要特徵(1)》。上述二表中“主特徵”、“次特徵”、“動(dòng)
18、態(tài)角色”,乃知網(wǎng)固有術(shù)語。為方便下文的討論,我們引進(jìn)兩個(gè)新術(shù)語,說明如下?!邦悇e屬性”:指出現(xiàn)在概念定義的第一個(gè)位置上的特徵,表示概念的類別。“附加屬性”:概念定義中第一位置以外,其他有關(guān)概念的本質(zhì)屬性或與其存有某種的語義關(guān)係的屬性。I.標(biāo)識(shí)符號(hào)的用法定義一個(gè)詞語的概念(以下稱之為概念),除了標(biāo)注其類別屬性,還要定出其附加屬性。知網(wǎng)的標(biāo)識(shí)符,是和附加屬性一起使用的。若概念所具有的附加屬