資源描述:
《語料對中文指代消解影響研究》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在工程資料-天天文庫。
1、語料對中文指代消解影響研究高俊偉,孔芳,朱巧明,李培峰(蘇州大學計算機科學與技術學院,江蘇蘇州215006)摘要:指代是自然語言中一種常見的語言現(xiàn)象,對簡化語言,減少冗余有很大的作用。指代消解是用計算機找出這些指代現(xiàn)象的一個過程。近兒年英文指代消解研究取得了很大的成就,然而,中文指代消解研究目前還較少,一方面是由于屮文自然語言處理的研究起步較晚,相關的知識較少,另外一方面就是中文相關的語料庫較少,目前已知的僅有ACE2005,OntoNotes等。為了探討語料庫對中文指代消解的影響,本文實現(xiàn)了一個基于機
2、器學習方法的屮文名詞短語指代消解平臺和一個基于無監(jiān)怦聚類方法的屮文名詞短語指代消解平臺,在此平臺的基礎上從語料庫的數(shù)量和質(zhì)量兩個方面來探討語料對中文名詞短語指代消解的影響。關鍵詞:指代消解;名詞短語;無監(jiān)督;聚類;語料中圖分類號:TP391ResearchontheeffectofthecorpustotheChineseNounPhraseAnaphoraResolutionGaoJunwei,KONGFang,ZHUQiaoming,LIPeifeng(SchoolofComputerScience
3、&Technology,SoochowUniversity,Jiangsu,Suzhou215006,China)Abstract:Coreferenceisacommonphenomenoninnaturallanguage,ithasagreateffectthatmakesthenaturallanguageclearandexplicitillusions.Coreferenceresolutionistheprocessthatfindsthesephenomenonsbyusingtheco
4、mputer?AgreatdealofresearchhasbeendoneonthistaskinEnglishandachievedagreatachievementinrecentyears?However,muchlessworkhasbeendoneinthisareainChinese?OneproblemisthattheresearchofChineseNLPislaterthanEnglish,theotherproblemisthatthelackofpubliccorpusinth
5、eresearchofChineseNLP,thepubliccorpusofChinesejusthaveACE2005,OntoNotesandsoon.TodiscusstheeffectofthecorpustotheChineseNounPhraseAnaphoraResolution,wepresentaChinesenounphrasecoreferenceresolutionsystemthatbasedonmachinelearningapproachandanothersystemt
6、hatbasedonunsupervisedclusteringapproach?WediscussedtheeffectofthecorpustotheChinesenounphrasecoreferenceresolutionbasedonthetwoplatformsfromthequantityandthequalityofthecorpus?Keywords:Coreferenceresolution;Nounphrase;Unsupervised;Clustering;Corpus0引言指代
7、是自然語言中一種常見的語言現(xiàn)象,指在文本中用一個語言成分回指以前提及過的某個語言單位,表現(xiàn)形式有別名,代詞,專有名詞等。這種指代現(xiàn)象對減少冗余,簡化語言,突出主題,使文本上下連貫通俗易懂都有很好的作用。隨著人機對話,機器翻譯,信息抽取等研究的不斷深入,指代消解的研究也越來越受到大家的關注,指代消解己成為口然語言處理領域中的熱點和難點之一。在語言學中,指代詞也稱為照應語,表示用于指向的語言單位,被指向的語言單位稱為先行語。指代消解的主要任務就是確定照應語所指向的先行語的過程。指代現(xiàn)象一般來說分為兩種:回指
8、和共指,回指主耍指當前的指代詞與文中出現(xiàn)的詞或基金項H:本文受國家白然科學基金(90920004,60970056,61070123,61003153)和江蘇省高校白然科學重大基礎研究項目(08KJA520002);博士點基金(200802850006)資助。作者簡介:高俊偉(1986?),男,碩士研究生,主要研究方向:自然語言處理通信聯(lián)系人:孑L芳(1977-),女,副教授,主要研究方向:自然語言處理.E-mail:kongfang@su