基於知網(wǎng)的語料標(biāo)注手冊(cè)

基於知網(wǎng)的語料標(biāo)注手冊(cè)

ID:6607067

大?。?72.00 KB

頁數(shù):63頁

時(shí)間:2018-01-20

基於知網(wǎng)的語料標(biāo)注手冊(cè)_第1頁
基於知網(wǎng)的語料標(biāo)注手冊(cè)_第2頁
基於知網(wǎng)的語料標(biāo)注手冊(cè)_第3頁
基於知網(wǎng)的語料標(biāo)注手冊(cè)_第4頁
基於知網(wǎng)的語料標(biāo)注手冊(cè)_第5頁
資源描述:

《基於知網(wǎng)的語料標(biāo)注手冊(cè)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、基於知網(wǎng)的語料標(biāo)注手冊(cè)顏國(guó)偉香港科技大學(xué)計(jì)算機(jī)科學(xué)系譚慧敏新加坡南洋理工大學(xué)中華語言文化中心(一九九九年八月第一版)63目錄基於知網(wǎng)的語料標(biāo)注手冊(cè)1一、引言3二、概念定義的格式及標(biāo)識(shí)符號(hào)的用法3I.概念定義的格式3II.標(biāo)識(shí)符號(hào)的用法5III.附加屬性的先後次序8三、語義辨別方法9I.語境9II.參攷知網(wǎng)的上下位描述詞關(guān)係12III.參攷知網(wǎng)的動(dòng)態(tài)角色14IV.參攷知網(wǎng)描述詞所對(duì)應(yīng)的英文描述15V.虛詞辨析15四、未登錄概念、新增概念的定義方法21I.人名21II.地名22III.建築物名25IV.組織名25V

2、.數(shù)量27VI.時(shí)間29VII.實(shí)體名稱29VIII.外文或音譯詞30IX.緊縮詞31X.單字縮略詞33XI.敬語35XII.增補(bǔ)概念35五、中研院語料的再處理36I.再切分36II.反切分38III.修改錯(cuò)誤的切分38iv.修改切分不一致之處39v.修改手民之誤39六、知網(wǎng)仍未解決的問題40I.一個(gè)定義是另一定義的子集合40II.冗餘定義40III.簡(jiǎn)繁轉(zhuǎn)換出現(xiàn)的遺漏40鳴謝41參攷文獻(xiàn)41附錄(一):臺(tái)灣之行政區(qū)劃(1958年)42附錄(二):一對(duì)多的簡(jiǎn)繁字對(duì)照表5063一、引言知網(wǎng)是面向計(jì)算機(jī)的雙語常識(shí)知

3、識(shí)庫,為創(chuàng)建人董振東先生研究逾十載的重要成果,提供了設(shè)計(jì)真正的智能軟件所需的知識(shí)。知網(wǎng)共收錄了50220個(gè)漢語詞語,所含蓋的概念總量達(dá)62174個(gè),目前尚在擴(kuò)充中。作為面向漢語計(jì)算需求的知識(shí)庫,知網(wǎng)詳盡地描述了概念之間的關(guān)係,以及概念所具有的屬性之間的關(guān)係,其中兼及漢語詞目在英語對(duì)應(yīng)使用中的語義概念。本文作者利用知網(wǎng)來標(biāo)注臺(tái)灣中央研究院平衡語料庫(第三版)中的部分語料。臺(tái)灣中央研究院平衡語料庫(第三版)共有五百萬目詞,我們抽取了其中有關(guān)社會(huì)犯罪的報(bào)導(dǎo),共三萬六千目詞。其中三萬目詞,我們利用知網(wǎng)進(jìn)行人工標(biāo)注。茲將

4、標(biāo)注的方法,包括概念定義的格式、標(biāo)識(shí)符號(hào)的用法、詞義辨別方法、未登錄概念及新增概念的定義方法等問題摘要報(bào)告,求正方家以匡不逮,亦冀方便其他學(xué)者進(jìn)一步瞭解知網(wǎng),在利用知網(wǎng)進(jìn)行語料標(biāo)注時(shí)能取得更高的一致性和準(zhǔn)確性。二、概念定義的格式及標(biāo)識(shí)符號(hào)的用法為了使說明更清晰,以下是本文所採(cǎi)用的特別標(biāo)記的定義:特別標(biāo)記定義<可有項(xiàng)>可有但非必須的描述《多數(shù)項(xiàng)》可以有超過一個(gè)同類的描述單一項(xiàng)沒有任何特別標(biāo)記的描述表示單一、必要的描述項(xiàng)一

5、項(xiàng)二第一項(xiàng)描述或者是第二項(xiàng)描述‘特徵’本文中橫式單引號(hào)‘’用來表示知網(wǎng)裏有嚴(yán)格定義的知識(shí)詞典

6、描述語言。固定的特徵I.概念定義的格式對(duì)實(shí)詞而言,知網(wǎng)的特徵首先分兩層:主要特徵及次要特徵,前者共分五類:事件類、事物類、部件類、屬性和數(shù)量類、屬性值和數(shù)量值類,後者包括屬性的具體分類及這些類別可以有的值見知網(wǎng)網(wǎng)頁裡頭的文件:《概念的次要特徵(1)》、《概念的次要特徵(2)》。,另加88個(gè)表示概念特性的描述見知網(wǎng)網(wǎng)頁裡頭的文件:《概念的次要特徵(3)》。。63概念類別定義格式備注事件主特徵1,<《動(dòng)態(tài)角色=主特徵2

7、次特徵》>,<《<標(biāo)識(shí)符>主特徵2

8、次特徵》>,複雜事件多半有至少一個(gè)動(dòng)態(tài)角色事物主特徵1,<《

9、<標(biāo)識(shí)符>主特徵2

10、次特徵》>,若主特徵1為“事情”,接著應(yīng)標(biāo)注該事情的主要特徵,無須借助於標(biāo)識(shí)符號(hào)。若主特徵1與某事件存有一動(dòng)態(tài)角色關(guān)係,則利用標(biāo)識(shí)符表達(dá)。部件‘部件’,%主特徵,次特徵,主特徵標(biāo)注該部件所屬的整體的類型。次特徵標(biāo)注該部件在整體中的部位或功能。屬性數(shù)量‘屬性’,次特徵1,&主特徵

11、&次特徵2,‘?dāng)?shù)量’,次特徵1,&主特徵

12、&次特徵2,次特徵1標(biāo)注該屬性和數(shù)量的具體屬性類或數(shù)量類。主特徵或次特徵2標(biāo)注該具體屬性或數(shù)量的宿主的類型。屬性值數(shù)量值‘屬性值’,次特徵1,<次特徵2>,‘?dāng)?shù)量值’,次特徵

13、1,<次特徵2>,次特徵1標(biāo)注該屬性值或數(shù)量值所指向的屬性或數(shù)量特徵。次特徵2標(biāo)注該屬性值或數(shù)量值的具體值。虛詞的類別包括:副狀、并列、主從、助詞和單位詞,其定義格式列如下:概念類別定義格式備注單位詞i.單位ii.名量‘單位’,&次特徵

14、&主特徵,‘名量’,&次特徵

15、&主特徵,63i.動(dòng)量‘動(dòng)量’,&次特徵

16、&主特徵,次特徵或主特徵標(biāo)注該單位、名量、動(dòng)量所指向的屬性或事物的類型。餘下三類{次特徵

17、動(dòng)態(tài)角色},前四個(gè)虛詞類別的詳細(xì)分類請(qǐng)參閱知網(wǎng)網(wǎng)頁上的文件《次要特徵(1)》。上述二表中“主特徵”、“次特徵”、“動(dòng)

18、態(tài)角色”,乃知網(wǎng)固有術(shù)語。為方便下文的討論,我們引進(jìn)兩個(gè)新術(shù)語,說明如下?!邦悇e屬性”:指出現(xiàn)在概念定義的第一個(gè)位置上的特徵,表示概念的類別。“附加屬性”:概念定義中第一位置以外,其他有關(guān)概念的本質(zhì)屬性或與其存有某種的語義關(guān)係的屬性。I.標(biāo)識(shí)符號(hào)的用法定義一個(gè)詞語的概念(以下稱之為概念),除了標(biāo)注其類別屬性,還要定出其附加屬性。知網(wǎng)的標(biāo)識(shí)符,是和附加屬性一起使用的。若概念所具有的附加屬

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。