漢語(yǔ)自動(dòng)分詞中中文地名識(shí)別

漢語(yǔ)自動(dòng)分詞中中文地名識(shí)別

ID:38161313

大?。?44.55 KB

頁(yè)數(shù):6頁(yè)

時(shí)間:2019-06-01

漢語(yǔ)自動(dòng)分詞中中文地名識(shí)別_第1頁(yè)
漢語(yǔ)自動(dòng)分詞中中文地名識(shí)別_第2頁(yè)
漢語(yǔ)自動(dòng)分詞中中文地名識(shí)別_第3頁(yè)
漢語(yǔ)自動(dòng)分詞中中文地名識(shí)別_第4頁(yè)
漢語(yǔ)自動(dòng)分詞中中文地名識(shí)別_第5頁(yè)
資源描述:

《漢語(yǔ)自動(dòng)分詞中中文地名識(shí)別》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、第46卷第4期大連理工大學(xué)學(xué)報(bào)Vol.46,No.42006年7月JournalofDalianUniversityofTechnologyJul.2006文章編號(hào):100028608(2006)0420576206漢語(yǔ)自動(dòng)分詞中中文地名識(shí)別3高紅,黃德根,楊元生(大連理工大學(xué)計(jì)算機(jī)科學(xué)與工程系,遼寧大連116024)摘要:以詞語(yǔ)級(jí)的中文地名為識(shí)別對(duì)象,根據(jù)地名內(nèi)部用字的統(tǒng)計(jì)信息和地名構(gòu)成特點(diǎn)產(chǎn)生潛在地名.在漢語(yǔ)自動(dòng)分詞中將可信度較高的潛在地名等同于句子的候選切分詞,利用候選切分詞本身的可信度和上下文接續(xù)關(guān)系評(píng)價(jià)句子的各種切分方案.在確定句子最

2、佳切分時(shí)識(shí)別句子中的中文地名.對(duì)真實(shí)語(yǔ)料進(jìn)行封閉和開(kāi)放測(cè)試,封閉測(cè)試結(jié)果為召回率93.55%,精確率94.14%,F21值93.85%;開(kāi)放測(cè)試結(jié)果為召回率91.27%,精確率73.48%,F21值81.42%.取得了比較令人滿意的結(jié)果.關(guān)鍵詞:中文地名識(shí)別;漢語(yǔ)自動(dòng)分詞;未登錄詞識(shí)別中圖分類號(hào):TP391.12文獻(xiàn)標(biāo)識(shí)碼:A0引言橋鎮(zhèn)”、“南化村”等,其中“臨川”、“雙橋”、“南化”為地名專名,“市”、“鎮(zhèn)”、“村”為地名通名.單字未登錄詞是影響漢語(yǔ)自動(dòng)分詞精度的主要因通名包括行政區(qū)劃名稱,如“省、市、縣、區(qū)、鄉(xiāng)、鎮(zhèn)、素.未登錄詞識(shí)別也受到不

3、正確分詞結(jié)果的影村、旗、州、府”等,也包括表示地形地貌的,如響.因此,研究者們提出了各種基于單個(gè)漢字的“江、河、山、洋、海、島、峰、湖”等,還包括表示自[1、2]未登錄詞識(shí)別方法.本文就未登錄詞中的中然區(qū)劃的“街、路、巷、莊、堡”等.在地名識(shí)別中,文地名識(shí)別進(jìn)行研究,在基于單個(gè)漢字產(chǎn)生潛在單字通名被稱為地名特征字,地名特征字屬于地地名的基礎(chǔ)上將中文地名識(shí)別與漢語(yǔ)自動(dòng)分詞同名內(nèi)部用字,即地名尾字.如果地名由專名和兩時(shí)進(jìn)行,這樣可以避免不正確的分詞結(jié)果對(duì)地名字以上的通名構(gòu)成,本文只標(biāo)識(shí)其專名部分,如在識(shí)別的負(fù)面影響.根據(jù)地名內(nèi)部用字的統(tǒng)計(jì)信息“宣城

4、地區(qū)”、“華北平原”、“安順胡同”中,只標(biāo)識(shí)和構(gòu)成特點(diǎn)產(chǎn)生潛在地名并計(jì)算其作為地名的可“宣城”、“華北”、“安順”為地名,“地區(qū)”、“平原”信度.可信度較高的潛在地名等同于句子的其他和“胡同”作為地名的后詞.候選切分詞,利用候選切分詞本身的可信度和上本文的測(cè)試語(yǔ)料是北京大學(xué)計(jì)算語(yǔ)言研究所下文接續(xù)關(guān)系評(píng)價(jià)句子的各種切分方案,在確定加工的1998年1月份《人民日?qǐng)?bào)》.對(duì)語(yǔ)料不進(jìn)行句子最佳切分時(shí)識(shí)別句子中的中文地名.任何篩選,以真實(shí)語(yǔ)料為測(cè)試集.本文以詞語(yǔ)級(jí)的中文地名為識(shí)別對(duì)象.由于在漢語(yǔ)中詞是沒(méi)有確切定義的概念,本文參照北1漢語(yǔ)自動(dòng)分詞中文地名識(shí)別

5、方法京大學(xué)計(jì)算語(yǔ)言研究所的《北大語(yǔ)料庫(kù)加工規(guī)[3]范》(2003版),每個(gè)切分單位就是一個(gè)單詞.詞1.1潛在地名語(yǔ)級(jí)的地名包括:(1)只有專名的地名,如“日喀潛在地名是在上下文無(wú)關(guān)的條件下,單純依則”、“白洋淀”、“昌都”、“豐臺(tái)”等.在地名識(shí)別靠地名的內(nèi)部用字產(chǎn)生的.中文地名用字比中文中,這類地名通常被稱為沒(méi)有特征字的地名.(2)姓名用字要分散、自由得多,但相對(duì)于整個(gè)漢字集由專名和單字通名構(gòu)成的地名,如“臨川市”、“雙而言還是比較集中的.本文根據(jù)國(guó)家測(cè)繪局地名收稿日期:2004212215;修回日期:2006203230.基金項(xiàng)目:國(guó)家自然科

6、學(xué)基金資助項(xiàng)目(60373095;60373096;60573022);高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金資助項(xiàng)目(20030141003).作者簡(jiǎn)介:高紅(19762),女,博士生,E2mail:gaohong@student.dlut.edu.cn;黃德根3(19652),男,博士,教授;楊元生(19462),男,教授,博士生導(dǎo)師.第4期高紅等:漢語(yǔ)自動(dòng)分詞中中文地名識(shí)別[4]研究所編纂的《中國(guó)地名錄》,統(tǒng)計(jì)出地名首字整參數(shù),取經(jīng)驗(yàn)值.表1是在多次試驗(yàn)中識(shí)別結(jié)2381個(gè),中間字1827個(gè),尾字1810個(gè)作為地名果較好的3組參數(shù)值,其中第2組的識(shí)

7、別結(jié)果最首字、中間字和尾字用字表,用FCL、MCL和好.LCL表示.表1參數(shù)KWn、KHn和KTn的經(jīng)驗(yàn)值和相應(yīng)識(shí)別結(jié)如果漢字串c1c2?cn滿足c1∈FCL,c2,?,果的比較cn-1∈MCL并且cn∈LCL,則稱c1c2?cn為潛在Tab11ParametersKWn,KHn,KTnandexperimentalresults地名,用Locname表示.KWnKHnKTnP?%R?%F?%很多地名包含多字詞,據(jù)統(tǒng)計(jì),在2015個(gè)地1.0×1081.0×1061.0×10692.9391.2192.06名中就包含了106個(gè)多字詞.如果把地名中

8、的多1.0×1071.0×1051.0×10594.1493.5593.85字詞、單字詞或不構(gòu)成詞的單字看做地名的組成1.0×1061.0×1041.

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。