資源描述:
《基于統(tǒng)計的機(jī)器學(xué)習(xí)的中文命名實(shí)體識別》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、摘要計算語言學(xué)所研究的命名實(shí)體是指句子中有確定含義的名詞。由于命名實(shí)體包含了文本中重要的信息,命名實(shí)體識別是信息抽取研究中最有意義的研究內(nèi)容之一。另外,文本中頻繁出現(xiàn)的命名實(shí)體,也是制約分詞精度提高的最主要原因。其識別的好壞將直接影響分詞精度以及其后的詞性標(biāo)洼和句法分板的精度,命名實(shí)體的自動識別也是漢語分詞的關(guān)鍵問題和熱點(diǎn)問題。因此研究命名實(shí)體自動識別具有重要的理論意義和實(shí)際意義。在漢語文本處理中通常關(guān)注的命名實(shí)體可以分為7個類別:“人名”,“地名”,“機(jī)構(gòu)名”,“日期”,“時間”,“貨幣”,“百分比”。且前命名實(shí)體識剮主要使用兩種方
2、法:基于統(tǒng)計的方法和基于規(guī)則的方法。前者利用統(tǒng)計的方法從真實(shí)的文本自動抽取命名實(shí)體的構(gòu)成規(guī)律。通過調(diào)練的語言模型自動識剮命名實(shí)體;后者主要利用語言學(xué)家的理性知識,通過語言學(xué)家書寫的規(guī)則識別命名實(shí)體。本文運(yùn)用統(tǒng)計與規(guī)則相結(jié)合韻方法,一方預(yù)利用了較大規(guī)模的語料庫來謝練,統(tǒng)計命名實(shí)體的用字用詞規(guī)律。另一方面,從已經(jīng)標(biāo)注的語料庫中提取了大量用于識別的規(guī)則,最終成功的實(shí)現(xiàn)了這些命名實(shí)體釣識黝,識翳的精度比單純基于統(tǒng)訐的方法和單純基于規(guī)則的方法都有所提高,具體地,本文的工作主要集中在以下幾個方面:1.漢字編碼轉(zhuǎn)換。漢字編碼是漢語文本進(jìn)入計算機(jī)處理
3、的第一步。漢語由于存在簡體、繁體兩種體統(tǒng),編碼比較復(fù)雜,編碼的格式并不統(tǒng)一。本文研究并實(shí)現(xiàn)了漢語不同編碼體統(tǒng)之前的轉(zhuǎn)換,支持當(dāng)前所有主要漢語編碼間的轉(zhuǎn)換并實(shí)現(xiàn)了多種漢字符號集的共存。為后面的文本預(yù)處理和命名實(shí)體識別提供了基礎(chǔ)。2.非漢字符號和數(shù)字識別。非漢字符號和數(shù)字是文本中比較容易識別的部分,可以在命名實(shí)體識別之前進(jìn)行處理。本文首先對不同格式、不同內(nèi)容的文本進(jìn)行了分旬處理,然后對文本中的非漢字符號,如百分比、金額、阿拉伯?dāng)?shù)字等,以及漢字?jǐn)?shù)字進(jìn)行了識別。3.基于評價函數(shù)的人名地名識別。本文通過對大規(guī)模標(biāo)注語料進(jìn)行訓(xùn)練,統(tǒng)計出入名、地名
4、的用字、用詞和上下文特性,用基于統(tǒng)計的評價函數(shù)對侯選人.I.基于統(tǒng)計的機(jī)器學(xué)習(xí)的中文命名實(shí)伴識別名、地名進(jìn)行打分,通過運(yùn)用動態(tài)規(guī)劃方法識剮出人名、地名在文本中可能出現(xiàn)的位置。4.基于決策樹的命名實(shí)體識別。引入機(jī)器學(xué)習(xí)的方法,設(shè)計了一種基于決策樹的識別模型,結(jié)合了命名實(shí)體句法組成的基本結(jié)構(gòu)特征和上下文特征,該方法不依賴于分詞系統(tǒng),可以對分詞過后韻語料進(jìn)行處理,同時也對其它命名實(shí)體進(jìn)行了識別。5.基于模板匹配的機(jī)構(gòu)名識別。通過真實(shí)語料中獲取的大量機(jī)構(gòu)名,對機(jī)構(gòu)名的組成進(jìn)行了深入的剖析,總結(jié)出識別機(jī)構(gòu)名的模板,提出了一種基于模板匹配的漢語機(jī)
5、構(gòu)名識別方法。6.介紹集成基于多種策略的命名實(shí)體識別技術(shù)的兩個系統(tǒng),并分別給出若干示例,說明命名實(shí)體識別在其中的作用。目前的實(shí)驗(yàn)結(jié)果表明,本文所采用的統(tǒng)計與規(guī)則結(jié)合的方法,獲得了比較理想的識別精度,所做的命名實(shí)體識別覆蓋了命名實(shí)體的所有類別,并考慮到了漢語文本的預(yù)處理中存在的問題。所做工作具有一定的研究意義和實(shí)用價值。關(guān)鍵詞:命名實(shí)體識別,統(tǒng)計,機(jī)器學(xué)習(xí),規(guī)則,文本預(yù)處理AbstractNamedEntity(NE)Recognition(NER)istoelassifyeverywordinadocumentintosomepred
6、efinedcategories.Inthetaxonomyofcomputationallinguisticstasks,itfa/Isunderthedomainof‘‘informationextraction”,whichextractsspecifickindsofinformationfromdocument.inotherhand,Namedentityrecognition’sresultisdecisivetoprecisionofthelattersegmentation,tagging,parsing.Inone
7、word,theresearchandapplicationofNERareofgreattheoreticalandpracticalsignificance.TheNEtaskistoidentifyallnamedlocations,namedpersons,namedorganizations,dates,times,monetaryamounts,andpercentagesintext.statisticsandrules.Therearetwotypicallypreviousapproachesusedinthista
8、sk.OneisNERbasedstatistics.whichautoextractNEinformationfromrealcontextandthenuseittotrainsystem.TheotherisNER