基于統(tǒng)計(jì)與條件隨機(jī)場的中文地名識別

ID：34313689

大?。?.80 MB

頁數(shù)：47頁

時間：2019-03-04

資源描述：

《基于統(tǒng)計(jì)與條件隨機(jī)場的中文地名識別》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、學(xué)校代碼：10327學(xué)號：1120150633碩士學(xué)位論文基于統(tǒng)計(jì)與條件隨機(jī)場的中文地名識別院系：信息工程學(xué)院專業(yè)：軟件工程研究方向：自然語言處理姓名：滕煒指導(dǎo)教師：毛波完成日期：2018年3月21日答辯日期：2018年5月30日ChineseLocationRecognitionBasedonStatisticsandCRFADissertationSubmittedtoNanjingUniversityofFinanceandEconomicsFortheAcademicDegreeofMasterofEngineeringBYTengWeiSupervisedby(Associate

2、)ProfessorMaoBoSchoolofInformationEngineeringNanjingUniversityofFinanceandEconomicsNovember2018I學(xué)位論文獨(dú)創(chuàng)性聲明本論文是我個人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。論文中除了特別加以標(biāo)注和致謝的地方外，不包含其他人或其它機(jī)構(gòu)已經(jīng)發(fā)表或撰寫過的研究成果。其他同志對本研究的啟發(fā)和所做的貢獻(xiàn)均已在論文中作了明確的聲明并表示了謝意。作者簽名：日期：學(xué)位論文使用授權(quán)聲明本人完全了解南京財經(jīng)大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定，即：學(xué)校有權(quán)保留送交論文的復(fù)印件，允許論文被查閱和借閱；學(xué)?？梢怨颊撐牡娜?/p>

3、部或部分內(nèi)容，可以采用影印、縮印或其它復(fù)制手段保存論文。保密的論文在解密后遵守此規(guī)定。作者簽名：導(dǎo)師簽名：日期：II摘要在互聯(lián)網(wǎng)快速發(fā)展的現(xiàn)代社會，作為人類社會生產(chǎn)生活中最重要的信息載體之一，網(wǎng)絡(luò)中蘊(yùn)含著大量有價值的地理位置信息。而這些信息大都以網(wǎng)絡(luò)文本的形式存在，因此，如何從網(wǎng)絡(luò)文本中提取非結(jié)構(gòu)化的地理位置信息就成了最主要的問題。中文地名的識別是面向中文數(shù)字文本的地理空間實(shí)體的提取。由于中文地名用字往往構(gòu)詞能力很強(qiáng)，且特征多樣，很難從文本中準(zhǔn)確定位到地名的位置和邊界。對此，本文深入的分析了中文地名的特征，并將地名識別問題轉(zhuǎn)換為序列標(biāo)注問題，訓(xùn)練條件隨機(jī)場模型對地名進(jìn)行識別，同時提出一種針

4、對復(fù)雜地名識別的算法，并結(jié)合規(guī)則對CRF結(jié)果進(jìn)行修正和補(bǔ)召。本文的主要貢獻(xiàn)如下：（1）針對目前現(xiàn)有模型對復(fù)雜地名的識別精度不高的事實(shí)，通過深入分析復(fù)雜地名的特點(diǎn)，設(shè)計(jì)了一種基于信息熵和點(diǎn)互信息的復(fù)雜地名識別算法，該算法利用地名數(shù)據(jù)庫生成關(guān)聯(lián)性詞典，并基于該詞典對文本相鄰用字之間的關(guān)聯(lián)性進(jìn)行計(jì)算，從而確定復(fù)雜地名與上下文的邊界，最終實(shí)現(xiàn)復(fù)雜地名的識別。（2）提出了一種基于規(guī)則的探測窗口地名識別方法?，F(xiàn)有的研究中，與條件隨機(jī)場模型結(jié)合的規(guī)則方法主要作為對前者識別結(jié)果的補(bǔ)充手段，起到修正、排歧以及補(bǔ)召的作用。但由于其直接作用于上層的識別結(jié)果，對于原始文本中隱藏的其他未被識別出的地名沒有補(bǔ)召能力，

5、因此作用有限。而對于單純基于規(guī)則的地名識別方法，其在識別過程中，需要對句子進(jìn)行輪詢式的規(guī)則集合套用，效率非常的低下。而本文方法針對上述兩個缺點(diǎn)進(jìn)行了改進(jìn)，將規(guī)則識別方法直接作用于原文，并且使用地名特征詞對原文中的疑似地名位置進(jìn)行粗略的定位，再結(jié)合探測窗口和規(guī)則集合進(jìn)一步確認(rèn)或排除。從實(shí)際結(jié)果看，該方法能夠?qū)F(xiàn)有的規(guī)則集合高效的利用于地名識別，能夠更好的與CRF模型配合，提高補(bǔ)召效果。（3）通過爬取權(quán)威網(wǎng)站NGAC的地質(zhì)文章標(biāo)題數(shù)據(jù)，結(jié)合《現(xiàn)代漢語語料庫加工規(guī)范》制作了復(fù)雜地名語料庫，為復(fù)雜地名的識別提供訓(xùn)練和驗(yàn)證的可靠語料。關(guān)鍵詞:中文地名識別；復(fù)雜地名識別；條件隨機(jī)場；信息熵；點(diǎn)互信息I

6、ABSTRACTWithhighspeedofthedevelopmentoftheInternetinoursociety,asoneofthemostimportantinformationcarriersintheproductionandlifeofhumansociety,thenetworkcontainsagreatdealofvaluablegeographicallocationinformation.However,mostofthisinformationisintheformofwebtexts.Therefore,howtoextractunstructuredg

7、eographicinformationfromwebtextsbecomesthemostimportantissue.TherecognitionofChineselocationistoextractthegeospatialentitiesfromChinesedigitaltexts.Chinesecharactersusedinplacenamesoftenhavestrongwordformationabi

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 47



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

基于統(tǒng)計(jì)與條件隨機(jī)場的中文地名識別

基于統(tǒng)計(jì)與條件隨機(jī)場的中文地名識別

相關(guān)文章

相關(guān)標(biāo)簽