資源描述:
《語塊語料庫的建設》由會員上傳分享,免費在線閱讀,更多相關內容在行業(yè)資料-天天文庫。
1、構建大規(guī)模的漢語語塊庫周強詹衛(wèi)東任海波智能技術與系統(tǒng)國家重北京大學中文系,北京上海師范大學國際文化點實驗室,清華大學計算100871交流學院,上海200234機系,北京100084摘要:本文介紹了構建200萬字的漢語語塊庫的主要工作,包括設計語塊標注體系、總結語塊標注規(guī)范和協(xié)調語塊加工流程等,分析了我們的標注體系與英語的CONLL-2000語塊任務的主要差異,并提出了對現(xiàn)有標注體系的進一步理論思考和在現(xiàn)有語塊庫上的一些應用設想。1引言構建大規(guī)模標注語料庫是語料庫語言學發(fā)展的重要基礎。在英語方面,百萬詞次規(guī)模的詞性標注語料庫—
2、—Brown語料庫的建成,直接促使了基于統(tǒng)計的詞性標注模型:HMM模型和自動標注算法:Viterbi算法的提出和完善。大規(guī)模的句法樹標注語料庫——Penn樹庫的建立,則為許多基于統(tǒng)計的自動句法分析模型提供了基礎的訓練素材。同時,作為一個統(tǒng)一的訓練和測試平臺,也為不同分析算法處理性能的評估提供了客觀的依據(jù)。近幾年來,隨著部分分析技術的不斷發(fā)展和應用范圍的不斷擴大,對處于中間層次的語塊(chunk)標注語料庫的開發(fā)也越來越受到重視,出現(xiàn)了一些較大規(guī)模的語塊標注語料庫,如CONLL-2000的語塊庫[TB00]等。在漢語方面,經(jīng)過
3、近幾年的研究,已經(jīng)建立了幾個較大規(guī)模的切分和詞性標注語料庫,包括清華大學的200萬字的平衡語料庫和北京大學與富士通合作開發(fā)的人民日報語料庫。在樹庫構建方面,也已取得一些成果,包括清華大學的漢語測試樹庫[ZS99]、美國賓州大學的UPenn樹庫[XP00]和臺灣中研院的樹庫項目[HCC00]。但對語塊標注和部分句法分析的研究還比較少。本文介紹了我們在漢語語塊標注體系設計和大規(guī)模語塊庫構建方面進行的一些初步探索。下面的第2節(jié)比較詳細地介紹了我們的語塊描述體系,并與CONLL-2000的標注體系進行了比較,分析了兩者的不同之處。第
4、3節(jié)介紹了我們的語塊庫構建工作,包括基礎語料庫資源、語塊標注規(guī)范和語塊加工流程等,并給出了一些基本的語塊庫統(tǒng)計數(shù)據(jù)。第4節(jié)進一步分析了語塊與論元結構的關系以及語塊與韻律結構的關系等。最后的第5節(jié)展望了在現(xiàn)有的語塊庫上可以進一步進行的一些句法分析和知識獲取研究設想。2語塊描述體系Abney(1991)最早提出了一個完整的語塊描述體系。他把語塊定義為句子中一組相鄰的屬于同一個s-投射(s-projection)的詞語的集合,建立了語塊與管轄約束(GB)理論的X-bar系統(tǒng)的內在聯(lián)系,從而奠定了這個語塊描述體系的比較堅實的理論基礎
5、。在此前后,一些應用系統(tǒng)的研究重點則主要集中在名詞短語的識別上,其中包括基本名詞短語(BaseNP)([Chu88],[RM95])和最長名詞短語(MNP)([LZ95],[ZSH00])。在其他語塊或基本短語方面的研究則比較少。最近比較完整的工作是Buchholz&al.(1999)。他們探索了NP,VP,PP和ADJP等基本短語的自動識別方法。另外,Veenstra(1999)也識別了NP,VP和PP塊。他們的研究為CONLL-2000提出的語塊共享研究計劃打下了基礎。去年舉行的自然語言學習國際會議(CONLL-2000
6、)提出的語塊共享任務(ChunkingSharedTask)旨在開發(fā)出一個大規(guī)模的英語語塊庫,為基于統(tǒng)計的不同部分分析方法的探索提供統(tǒng)一的訓練和測試庫。他們采用了Abney的語塊描述框架,并對一些語塊進行了分解和細化,其中的一些差異可以從下面的例子中看出來(其中例句1采用了Abney的標注體系):(1)[He][reckones][thecurrentaccountdeficit][willnarrow][toonly$1.8billion][inSeptember].(2)[NPHe][VPreckones][NPthec
7、urrentaccountdeficit][VPwillnarrow][PPto][NPonly$1.8billion][PPin][NPSeptember].語料則取自Penn樹庫的華爾街日報(WSJ)部分。利用自動程序將分析樹標注文本直接映射成不相交、無嵌套的語塊標注文本,并保留了原來的大部分句法成分標記。目前抽取的語料規(guī)模約為30萬詞,平均每個語塊包含2個詞。表2列出了其中最常見的幾個語塊的信息描述,有關的詳細資料可參閱[TB00]。表2CONLL-2000的常見語塊描述表1我們的語塊標記集語塊標記語塊描述語塊標記語塊
8、描述NP名詞短語S主語短語VP動詞短語P述語短語PP介詞短語(大部分情況下只包含一O賓語語塊個介詞)J兼語語塊ADVP副詞短語D狀語語塊SBAR小句(subordinatedclause)(大部C補語語塊分情況下只包含一個從屬連詞)T獨立語塊ADJP形容詞短語Y語氣塊我們從2000年3月起