資源描述:
《基于語義組塊分析的漢語語義角色標(biāo)注》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、第23卷第5期中文信息學(xué)報(bào)Vol.23,No.52009年9月JOURNALOFCHINESEINFORMATIONPROCESSINGSep.,2009文章編號(hào):1003-0077(2009)05-0053-09基于語義組塊分析的漢語語義角色標(biāo)注丁偉偉,常寶寶(北京大學(xué)計(jì)算語言學(xué)研究所,北京100871)摘要:近些年來,中文語義角色標(biāo)注得到了大家的關(guān)注,不過大多是傳統(tǒng)的基于句法樹的系統(tǒng),即對句法樹上的節(jié)點(diǎn)進(jìn)行語義角色識(shí)別和分類。該文提出了一種與傳統(tǒng)方法不同的處理策略,我們稱之為基于語義組塊分析的語義角色標(biāo)注。在新的方法中,語義角色標(biāo)注的流程不再是傳統(tǒng)的/句法分析)))語義角色識(shí)別)))語
2、義角色分類0,而是一種簡化的/語義組塊識(shí)別)))語義組塊分類0流程。這一方法將漢語語義角色標(biāo)注從一個(gè)節(jié)點(diǎn)的分類問題轉(zhuǎn)化為序列標(biāo)注問題,我們使用了條件隨機(jī)域這一模型,取得了較好的結(jié)果。同時(shí)由于避開了句法分析這個(gè)階段,使得語義角色標(biāo)注擺脫了對句法分析的依賴,從而突破了漢語語法分析器的時(shí)間和性能限制。通過實(shí)驗(yàn)我們可以看出,新的方法可以取得較高的準(zhǔn)確率,并且大大節(jié)省了分析的時(shí)間。通過對比,我們可以發(fā)現(xiàn)在自動(dòng)切分和詞性標(biāo)注上的結(jié)果與在完全正確的切分和詞性標(biāo)注上的結(jié)果相比,還有較大差距。關(guān)鍵詞:計(jì)算機(jī)應(yīng)用;中文信息處理;語義角色標(biāo)注;語義組塊分析;條件隨機(jī)域;序列標(biāo)注中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:
3、AChineseSemanticRoleLabelingBasedonSemanticChunkingDINGWeiwei,CHANGBaobao(InstituteofComputationalLinguistics,PekingUniversity,Beijing100871,China)Abstract:Inrecentyears,theChineseSRL(semanticrolelabeling)hasarousedtheintensiveattention.ManySRLsystemshavebeenbuiltontheparsingtrees,inwhichtheconsti
4、tuentsofthesentencestructureareidentifiedandthenclassified.Incontrast,thispaperestablishesasemanticchunkingbasedmethodwhichchangestheSRLtaskfromthetraditional/parsing-semanticroleidentification-semanticroleclassification0processintoasimple/semanticchunkidentification-semanticchunkclassification0pi
5、peline.Thesemanticchunking,whichisnamedafterthesyn-tacticchunking,isusedtoidentifythesemanticchunk,namelytheargumentsoftheverbs.Basedonthesemanticchunkingresult,theChineseSRLcanbechangedintoasequencelabelingprobleminsteadoftheclassificationprob-lem.Weapplytheconditionalrandomfieldstotheproblemandg
6、etbetterperformance.Alongwiththeremovaloftheparsingstage,theSRLtaskavoidsthedependenceonparsing,whichisalwaysthebottleneckbothofspeedandprecision.Theexperimentshaveshownthattheoutperformsofourapproachpreviouslybest-reportedmethodsonChineseSRLwithanimpressivetimereduction.Wealsoshowthattheproposedm
7、ethodworksmuchbetterongoldwordsegmentationandPOStaggingthanontheautomaticresults.Keywords:computerapplication;Chineseinformationprocessing;semanticrolelabeling;semanticchunking;con-ditionalrandomfields;sequencela