資源描述:
《規(guī)則與統(tǒng)計相結(jié)合的日語時間表達式識別》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、第27卷第6期中文信息學報Vo1.27,No.62013年l1月JOURNALOFCHINESEINFORMATIONPROCESSINGNOV.,2O13文章編號:1003—0077(2013)06—0192—09規(guī)則與統(tǒng)計相結(jié)合的日語時間表達式識別趙紫玉,徐金安,張玉潔,劉江鳴(北京交通大學計算機與信息技術(shù)學院,北京100044)摘要:該文提出了一種基于自定義知識庫強化獲取規(guī)則集,以及規(guī)則與統(tǒng)計模型相結(jié)合的日語時間表達式識別方法。在按照Timex2標準對時間表達進行細化分類的基礎(chǔ)上,我們結(jié)合日語時間詞的特點,漸
2、進地擴展重構(gòu)日語時間表達式知識庫,實現(xiàn)基于知識庫獲取的規(guī)則集的優(yōu)化更新,旨在不斷提高時間表達式的識別精準度。同時,融合CRF統(tǒng)計模型提高日語時間表達式識別的泛化能力。實驗結(jié)果顯示開放測試F1值達0.8987。關(guān)鍵詞:知識庫;規(guī)則集;統(tǒng)計模型中圖分類號:TP391文獻標識碼:AJapaneseTimeExpressionRecognitionbyCombiningRuleswithStatisticsZHAOZiyu,XUJin’an,ZHANGYujie,LIUJiangming(SchoolofComputera
3、ndInformationTechnology,BeijingJiaotongUniversity,Beijing100044,China)Abstract:Basedontheknowledgebasewedefined,thispaperpresentsaJapanesetimeexpressionrecognitionmeth—odthroughcombiningrulessetstrengthenedbyknowledgebasewithstatisticalmode1.AccordingtOtheTime
4、x2standards’granularclassificationontime,weprogressivelyexpandedandreconstructedtheknowledgebasegiventheJapanesetimecharacteristic,andthenachievedrulessetoptimizationandupdate,inordertOincreaserecognitionaC—curacy.Simultaneously,we{usedCRFmodeltOenhancethegene
5、ralizationabilityofJapanesetimeexpressionrec—ognition.OurexperimentalresultsshowthattheF1valuereaches0.8987onopentest.Keywords:knowledgebase;rulesset;statisticalmodel例如,在機器翻譯中,可以使譯文更加流暢E婦;在多1引言文檔自動摘要中,可以對文檔信息進行時序排序;在自動問答系統(tǒng)中,可以用于回答“多久,何時”等與時間表達式是句子中的重要成分,是關(guān)鍵信息時
6、間相關(guān)的問題。的載體。時間表達式的抽取和處理是當前自然語言時間表達式識別與規(guī)范化研究,最早是1995年處理中的一個重要研究方向。正確識別時間表達式信息理解會議(MessageunderstandingConfer—具有重要的意義。ence,MUC)把時間表達式的識別作為命名實體識近年來,時間表達式的識別和規(guī)范化在事件跟別的一個子任務(wù)。在美國國家技術(shù)標準局(NIST)蹤,時間關(guān)系推理,時序定位等方面的應(yīng)用越來越于2004年舉辦了第一屆時問表達式識別與歸一化多,不僅可以提高分詞、句法分析的精度,還可改善(TimeExp
7、ressionRecognitionandNormalization,機器翻譯、信息抽取、文本摘要、對話系統(tǒng)的性能。TERN)的評測后,ACE2005(AutomaticContent收稿日期:2013—08一Ol定稿日期:2013-0925基金項目:國家自然科學基金資助項目(61370130);科技部國際科技合作計劃(K11F100010);中央高?;究蒲袠I(yè)務(wù)費專項資金資助項目(2O1OJBZ2O07);北京市重點學科共建資助項目(計算機應(yīng)用技術(shù));中國科學院計算技術(shù)研究所智能信息處理重點實驗室開放課題(IIP
8、2010-4);北京交通大學人才基金資助項目(2011RC034)。作者簡介:趙紫玉(1987一),女,碩士研究生,主要研究方向為自然語言處理;徐金安(197O),男,副教授,碩士生導(dǎo)師,主要研究方向為自然語言處理和機器翻譯;張玉潔(1961一),女,教授,碩士生導(dǎo)師,主要研究方向為自然語言處理、機器翻譯和文本大數(shù)據(jù)處理;劉江鳴(1989一),男,碩士研究生