基于統(tǒng)計(jì)與條件隨機(jī)場的中文地名識別

基于統(tǒng)計(jì)與條件隨機(jī)場的中文地名識別

ID:34313689

大?。?.80 MB

頁數(shù):47頁

時間:2019-03-04

基于統(tǒng)計(jì)與條件隨機(jī)場的中文地名識別_第1頁
基于統(tǒng)計(jì)與條件隨機(jī)場的中文地名識別_第2頁
基于統(tǒng)計(jì)與條件隨機(jī)場的中文地名識別_第3頁
基于統(tǒng)計(jì)與條件隨機(jī)場的中文地名識別_第4頁
基于統(tǒng)計(jì)與條件隨機(jī)場的中文地名識別_第5頁
資源描述:

《基于統(tǒng)計(jì)與條件隨機(jī)場的中文地名識別》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、學(xué)校代碼:10327學(xué)號:1120150633碩士學(xué)位論文基于統(tǒng)計(jì)與條件隨機(jī)場的中文地名識別院系:信息工程學(xué)院專業(yè):軟件工程研究方向:自然語言處理姓名:滕煒指導(dǎo)教師:毛波完成日期:2018年3月21日答辯日期:2018年5月30日ChineseLocationRecognitionBasedonStatisticsandCRFADissertationSubmittedtoNanjingUniversityofFinanceandEconomicsFortheAcademicDegreeofMasterofEngineeringBYTengWeiSupervisedby(Associate

2、)ProfessorMaoBoSchoolofInformationEngineeringNanjingUniversityofFinanceandEconomicsNovember2018I學(xué)位論文獨(dú)創(chuàng)性聲明本論文是我個人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。論文中除了特別加以標(biāo)注和致謝的地方外,不包含其他人或其它機(jī)構(gòu)已經(jīng)發(fā)表或撰寫過的研究成果。其他同志對本研究的啟發(fā)和所做的貢獻(xiàn)均已在論文中作了明確的聲明并表示了謝意。作者簽名:日期:學(xué)位論文使用授權(quán)聲明本人完全了解南京財經(jīng)大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:學(xué)校有權(quán)保留送交論文的復(fù)印件,允許論文被查閱和借閱;學(xué)??梢怨颊撐牡娜?/p>

3、部或部分內(nèi)容,可以采用影印、縮印或其它復(fù)制手段保存論文。保密的論文在解密后遵守此規(guī)定。作者簽名:導(dǎo)師簽名:日期:II摘要在互聯(lián)網(wǎng)快速發(fā)展的現(xiàn)代社會,作為人類社會生產(chǎn)生活中最重要的信息載體之一,網(wǎng)絡(luò)中蘊(yùn)含著大量有價值的地理位置信息。而這些信息大都以網(wǎng)絡(luò)文本的形式存在,因此,如何從網(wǎng)絡(luò)文本中提取非結(jié)構(gòu)化的地理位置信息就成了最主要的問題。中文地名的識別是面向中文數(shù)字文本的地理空間實(shí)體的提取。由于中文地名用字往往構(gòu)詞能力很強(qiáng),且特征多樣,很難從文本中準(zhǔn)確定位到地名的位置和邊界。對此,本文深入的分析了中文地名的特征,并將地名識別問題轉(zhuǎn)換為序列標(biāo)注問題,訓(xùn)練條件隨機(jī)場模型對地名進(jìn)行識別,同時提出一種針

4、對復(fù)雜地名識別的算法,并結(jié)合規(guī)則對CRF結(jié)果進(jìn)行修正和補(bǔ)召。本文的主要貢獻(xiàn)如下:(1)針對目前現(xiàn)有模型對復(fù)雜地名的識別精度不高的事實(shí),通過深入分析復(fù)雜地名的特點(diǎn),設(shè)計(jì)了一種基于信息熵和點(diǎn)互信息的復(fù)雜地名識別算法,該算法利用地名數(shù)據(jù)庫生成關(guān)聯(lián)性詞典,并基于該詞典對文本相鄰用字之間的關(guān)聯(lián)性進(jìn)行計(jì)算,從而確定復(fù)雜地名與上下文的邊界,最終實(shí)現(xiàn)復(fù)雜地名的識別。(2)提出了一種基于規(guī)則的探測窗口地名識別方法?,F(xiàn)有的研究中,與條件隨機(jī)場模型結(jié)合的規(guī)則方法主要作為對前者識別結(jié)果的補(bǔ)充手段,起到修正、排歧以及補(bǔ)召的作用。但由于其直接作用于上層的識別結(jié)果,對于原始文本中隱藏的其他未被識別出的地名沒有補(bǔ)召能力,

5、因此作用有限。而對于單純基于規(guī)則的地名識別方法,其在識別過程中,需要對句子進(jìn)行輪詢式的規(guī)則集合套用,效率非常的低下。而本文方法針對上述兩個缺點(diǎn)進(jìn)行了改進(jìn),將規(guī)則識別方法直接作用于原文,并且使用地名特征詞對原文中的疑似地名位置進(jìn)行粗略的定位,再結(jié)合探測窗口和規(guī)則集合進(jìn)一步確認(rèn)或排除。從實(shí)際結(jié)果看,該方法能夠?qū)F(xiàn)有的規(guī)則集合高效的利用于地名識別,能夠更好的與CRF模型配合,提高補(bǔ)召效果。(3)通過爬取權(quán)威網(wǎng)站NGAC的地質(zhì)文章標(biāo)題數(shù)據(jù),結(jié)合《現(xiàn)代漢語語料庫加工規(guī)范》制作了復(fù)雜地名語料庫,為復(fù)雜地名的識別提供訓(xùn)練和驗(yàn)證的可靠語料。關(guān)鍵詞:中文地名識別;復(fù)雜地名識別;條件隨機(jī)場;信息熵;點(diǎn)互信息I

6、ABSTRACTWithhighspeedofthedevelopmentoftheInternetinoursociety,asoneofthemostimportantinformationcarriersintheproductionandlifeofhumansociety,thenetworkcontainsagreatdealofvaluablegeographicallocationinformation.However,mostofthisinformationisintheformofwebtexts.Therefore,howtoextractunstructuredg

7、eographicinformationfromwebtextsbecomesthemostimportantissue.TherecognitionofChineselocationistoextractthegeospatialentitiesfromChinesedigitaltexts.Chinesecharactersusedinplacenamesoftenhavestrongwordformationabi

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。