基于crf的中文命名實(shí)體識(shí)別方法研究

基于crf的中文命名實(shí)體識(shí)別方法研究

ID:14401539

大?。?80.00 KB

頁數(shù):59頁

時(shí)間:2018-07-28

基于crf的中文命名實(shí)體識(shí)別方法研究_第1頁
基于crf的中文命名實(shí)體識(shí)別方法研究_第2頁
基于crf的中文命名實(shí)體識(shí)別方法研究_第3頁
基于crf的中文命名實(shí)體識(shí)別方法研究_第4頁
基于crf的中文命名實(shí)體識(shí)別方法研究_第5頁
資源描述:

《基于crf的中文命名實(shí)體識(shí)別方法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、圖書分類號(hào)UDC注-1271TP391.1密級(jí)非密碩士學(xué)位論文基于CRF的中文命名實(shí)體識(shí)別方法研究王峰指導(dǎo)教師(姓名、職稱)申請(qǐng)學(xué)位級(jí)別專業(yè)名稱王召巴教授工學(xué)碩士檢測(cè)技術(shù)與自動(dòng)化裝置論文提交日期論文答辯日期學(xué)位授予日期年年年月月月日日日論文評(píng)閱人答辯委員會(huì)主席注1:注明《國際十進(jìn)分類法UDC》的分類年月日原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在指導(dǎo)教師的指導(dǎo)下,獨(dú)立進(jìn)行研究所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不包含其他個(gè)人或集體已經(jīng)發(fā)表或撰寫過的科研成果。對(duì)本文的研究

2、作出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本聲明的法律責(zé)任由本人承擔(dān)。論文作者簽名:日期:關(guān)于學(xué)位論文使用權(quán)的說明本人完全了解中北大學(xué)有關(guān)保管、使用學(xué)位論文的規(guī)定,其中包括:①學(xué)校有權(quán)保管、并向有關(guān)部門送交學(xué)位論文的原件與復(fù)印件;②學(xué)??梢圆捎糜坝 ⒖s印或其它復(fù)制手段復(fù)制并保存學(xué)位論文;③學(xué)??稍试S學(xué)位論文被查閱或借閱;④學(xué)校可以學(xué)術(shù)交流為目的,復(fù)制贈(zèng)送和交換學(xué)位論文;⑤學(xué)??梢怨紝W(xué)位論文的全部或部分內(nèi)容(保密學(xué)位論文在解密后遵守此規(guī)定)。簽名:日期:導(dǎo)師簽名:日期:中北大學(xué)學(xué)位論文基于CRF的中文

3、命名實(shí)體識(shí)別方法研究摘要作為文本信息中的基本信息元素,命名實(shí)體是正確理解文本的基礎(chǔ)。命名實(shí)體識(shí)別就是將文本信息中規(guī)定的實(shí)體識(shí)別出來,它在自然語言處理中是一項(xiàng)基礎(chǔ)性的工作,在信息抽取,機(jī)器翻譯,自動(dòng)問答等領(lǐng)域有著廣泛的應(yīng)用。本文以中科院網(wǎng)絡(luò)科技監(jiān)測(cè)平臺(tái)建設(shè)為背景,采用條件隨機(jī)域模型(CRF),研究中文命名實(shí)體的識(shí)別方法。本文通過分析目前命名實(shí)體識(shí)別的研究現(xiàn)狀,詳細(xì)闡述了近些年來國內(nèi)外命名實(shí)體識(shí)別的評(píng)測(cè)活動(dòng);在分析了馬爾克夫模型和最大熵模型的基礎(chǔ)上,確立了基于條件隨機(jī)場(chǎng)模型的研究方案。本文在條件隨機(jī)場(chǎng)的預(yù)處理中,以字的方

4、式作為輸入標(biāo)準(zhǔn),從字的角度來切割文本,以獲得更多文本信息的上下文特征;在模型訓(xùn)練中,對(duì)不同的模板對(duì)文本進(jìn)行了識(shí)別,得到了一個(gè)相對(duì)較為優(yōu)化的訓(xùn)練模板,并在訓(xùn)練語料中加入詞性的外部特征,通過實(shí)驗(yàn)表明,該方法可以彌補(bǔ)訓(xùn)練規(guī)模的不足,在一定程度上提高了實(shí)體的識(shí)別效果。本文針對(duì)中科院網(wǎng)絡(luò)科技監(jiān)測(cè)平臺(tái)建設(shè)的要求,利用SIGHAN2006MSRA的語料庫,通過對(duì)不同模板的測(cè)試,采用模式學(xué)習(xí)方法對(duì)不同詞的粒度實(shí)體進(jìn)行識(shí)別,自動(dòng)識(shí)別出語料中的命名實(shí)體;通過對(duì)測(cè)試語料的識(shí)別,獲得實(shí)體識(shí)別的詳細(xì)信息,并與正確的人工標(biāo)記結(jié)果進(jìn)行比較,結(jié)果說明

5、了采用CRF進(jìn)行命名實(shí)體識(shí)別可以取得了不錯(cuò)的識(shí)別效果。論文的研究成果為日后實(shí)現(xiàn)監(jiān)測(cè)平臺(tái)準(zhǔn)確的進(jìn)行實(shí)體識(shí)別打下基礎(chǔ)。關(guān)鍵詞:條件隨機(jī)場(chǎng)命名實(shí)體特征模板標(biāo)注集中北大學(xué)學(xué)位論文ResearchonChineseNamedEntityRecognitionBasedonCRFAbstractNamedEntityRecognitionistorecognizespecificentitiesintext.Asthebasicinformationunitoftext,NamedEntityisessentialtothecor

6、rectunderstandingofatext.NamedEntityRecognition(NER)isabasictaskinnaturallanguageprocessingresearch,whichiswidelyusedinmachinetranslation,informationextraction,automaticsummarizationandsoon.Sohowtoidentifynamedentityhasgreattheoreticalandpracticalsignificance.In

7、thispaper,firstly,itinvestigatedandsummarizedthecurrentstatusoftheNameEntityRecognition.Andthen,itintroducedtheevaluationstrategyforNER,whichanalyzedthecurrentmethodoftheNameEntityRecognition.Detaileddescriptionoftheconditionalrandomfieldmodel,conditionalrandomf

8、ieldisastatisticalmachinelearningmethods,ithasgoodperformanceinlabelingandfragmentingthesequence.Traininginthemodel,weaddedthepartofspeechastheexternalcharacteristics

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。