資源描述:
《基于規(guī)則的中文時(shí)間表達(dá)式識(shí)別與規(guī)范化.pdf》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。
1、第31卷第3期廣東工業(yè)大學(xué)學(xué)報(bào)Vol.31No.32014年9月JournalofGuangdongUniversityofTechnologySeptember2014doi:10.3969/j.issn.1007-7162.2014.03.016基于規(guī)則的中文時(shí)間表達(dá)式識(shí)別與規(guī)范化左亞堯,龍耀發(fā),李杰駿(廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣東廣州510006)摘要:為了解決文本時(shí)間表達(dá)式的識(shí)別與規(guī)范化問(wèn)題,針對(duì)時(shí)間表達(dá)式在形式上的多樣性與非結(jié)構(gòu)化,提出了對(duì)時(shí)態(tài)元素進(jìn)行刻畫(huà)的思想,劃分時(shí)間表達(dá)式類(lèi)別及規(guī)范形式;在此基礎(chǔ)上,采用正則表達(dá)式與Trie樹(shù)結(jié)構(gòu)相結(jié)合的方式構(gòu)建出時(shí)間短語(yǔ)識(shí)別樹(shù),自動(dòng)進(jìn)
2、行中文時(shí)間表達(dá)式的識(shí)別與分類(lèi);最后,提出規(guī)范化算法與修正算法處理識(shí)別后的結(jié)果,得到規(guī)范化形式.以中文語(yǔ)料進(jìn)行實(shí)驗(yàn),中文表達(dá)式識(shí)別與規(guī)范化工作達(dá)到較好的效果.關(guān)鍵詞:規(guī)則;正則表達(dá)式;時(shí)間表達(dá)式識(shí)別;規(guī)范化中圖分類(lèi)號(hào):TP393文獻(xiàn)標(biāo)志碼:A文章編號(hào):1007-7162(2014)03-0088-07RecognitionandNormalizationofChineseTimeExpressionsBasedonRulesZuoYa-yao,LongYao-fa,LiJie-jun(SchoolofComputers,GuangdongUniversityofTechnology,G
3、uangzhou510006,China)Abstract:Concerningtheproblemwiththerecognitionandnormalizationoftimeexpressionsintexts,ai-mingatthediversityandunstructuredformsoftimeexpressions,itproposedtheideaofdescribingtempo-ralelementstodividethetypesoftimeexpressionsandtheirformsofnormalization.Withthemethodthatco
4、mbinedregularexpressionswithTrietreestructure,itbuilttherecognitiontreeoftimeexpressions,whichcouldrecognizetimeexpressionsautomatically.Finally,itproposedthenormalizationalgorithmandcorrectionalgorithmtodealwiththerecognizedresults.Theresultsareprettygood.Keywords:rule;regularexpressions;recog
5、nitionoftimeexpressions;normalization在自然語(yǔ)言處理、問(wèn)題回答、信息檢索等應(yīng)用領(lǐng)療記錄提出一個(gè)時(shí)態(tài)表達(dá)式識(shí)別和時(shí)態(tài)關(guān)系抽取框域中,時(shí)態(tài)信息處理變得日益重要.無(wú)論是時(shí)態(tài)數(shù)架,時(shí)態(tài)表達(dá)式識(shí)別利用正則表達(dá)式建立的語(yǔ)法進(jìn)據(jù)庫(kù)還是時(shí)態(tài)數(shù)據(jù)挖掘研究領(lǐng)域,時(shí)態(tài)信息應(yīng)用都行處理,而時(shí)態(tài)關(guān)系抽取結(jié)合了CRFs從中文醫(yī)療影響深遠(yuǎn),時(shí)態(tài)信息促進(jìn)大數(shù)據(jù)的存儲(chǔ)與利用.近記錄中的醫(yī)療問(wèn)題中自動(dòng)抽取時(shí)態(tài)屬性.這些學(xué)者年來(lái),時(shí)態(tài)信息的應(yīng)用吸引了國(guó)內(nèi)外專(zhuān)家學(xué)者的關(guān)進(jìn)行了時(shí)態(tài)數(shù)據(jù)抽取的相關(guān)工作,卻缺乏對(duì)時(shí)態(tài)數(shù)[1-5]注.據(jù)規(guī)范化的研究,難以更有效地利用時(shí)態(tài)信息.時(shí)態(tài)的應(yīng)用研究首要任
6、務(wù)是時(shí)間表達(dá)式的抽隨著關(guān)注時(shí)態(tài)信息的學(xué)者更為廣泛,人們不滿(mǎn)[6]取,如PeiquanJin等提出了時(shí)態(tài)搜索引擎(Time-足于時(shí)態(tài)信息的抽取識(shí)別,為提高時(shí)態(tài)信息的利用InspiredSearchEngine,TISE),主要對(duì)Web頁(yè)面的度,針對(duì)已抽取的時(shí)間表達(dá)式,進(jìn)行規(guī)范化工作.時(shí)間進(jìn)行抽取與檢索并且支持不同類(lèi)型的Web時(shí)如文獻(xiàn)[10]提出基于規(guī)則的HeidelTime系統(tǒng),主要[7]態(tài)信息;李君嬋等提出基于最大熵模型的方法來(lái)是利用正則表達(dá)式識(shí)別文檔中的時(shí)態(tài)表達(dá)式以及對(duì)完成時(shí)間表達(dá)式抽取與類(lèi)型識(shí)別;文獻(xiàn)[8]提出一其進(jìn)行規(guī)范化處理;文獻(xiàn)[11]描述了一個(gè)對(duì)時(shí)態(tài)表種基于條件隨機(jī)場(chǎng)(C
7、onditionalRandomFields,達(dá)式進(jìn)行識(shí)別和規(guī)范化的系統(tǒng),利用最大熵模型構(gòu)CRFs)的時(shí)間表達(dá)式識(shí)別方案;文獻(xiàn)[9]針對(duì)中文醫(yī)建分類(lèi)器對(duì)句子成分分類(lèi)以完成識(shí)別工作,進(jìn)而基收稿日期:2014-04-13基金項(xiàng)目:廣東省自然科學(xué)基金資助項(xiàng)目(S2011040004281,S2013010014457)作者簡(jiǎn)介:左亞堯(1974-),男,副教授,主要研究方向?yàn)闀r(shí)態(tài)信息處理、數(shù)據(jù)挖掘、粒度計(jì)算.第3期左亞堯,等:基于規(guī)則的中文時(shí)間表達(dá)式識(shí)別與規(guī)范化