基于統(tǒng)計(jì)和規(guī)則的中文姓名識(shí)別

ID：23378462

大?。?6.00 KB

頁(yè)數(shù)：7頁(yè)

時(shí)間：2018-11-07

基于統(tǒng)計(jì)和規(guī)則的中文姓名識(shí)別_第1頁(yè)

基于統(tǒng)計(jì)和規(guī)則的中文姓名識(shí)別_第2頁(yè)

基于統(tǒng)計(jì)和規(guī)則的中文姓名識(shí)別_第3頁(yè)

基于統(tǒng)計(jì)和規(guī)則的中文姓名識(shí)別_第4頁(yè)

基于統(tǒng)計(jì)和規(guī)則的中文姓名識(shí)別_第5頁(yè)

資源描述：

《基于統(tǒng)計(jì)和規(guī)則的中文姓名識(shí)別》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。

1、基于統(tǒng)計(jì)和規(guī)則的中文姓名識(shí)別本文基于統(tǒng)計(jì)和規(guī)則提出一種中文識(shí)別方法。利用統(tǒng)計(jì)信息得到候選中文姓名，而后利用姓名前后的指界詞、稱謂詞等相關(guān)信息從候選中文姓名中進(jìn)行篩選，完成識(shí)別。實(shí)驗(yàn)表明該方法的正確率和召回率比較高，并且由于中文姓名在未登錄詞中占有很大比例，本文方法可以幫助進(jìn)一步提高漢語(yǔ)自動(dòng)分詞的識(shí)別效果。關(guān)鍵詞：漢語(yǔ)自動(dòng)分詞；未登錄詞識(shí)別；中文姓名識(shí)別；統(tǒng)計(jì)和規(guī)則1引言　　隨著信息技術(shù)的飛速發(fā)展，中文信息處理技術(shù)已經(jīng)滲透到計(jì)算機(jī)應(yīng)用的各個(gè)領(lǐng)域。自動(dòng)分詞是中文信息處理技術(shù)的基礎(chǔ)，其中未登錄詞的識(shí)別一直是自動(dòng)分詞的研究難點(diǎn)，越來(lái)越多的研究者致力于提高未登錄詞的識(shí)別效率。

2、　　中文姓名在未登錄詞中占有很大比例，所以中文姓名識(shí)別的正確率與召回率已經(jīng)成為影響整體自動(dòng)分詞正確率與召回率的一個(gè)重要因素。本文基于統(tǒng)計(jì)和規(guī)則提出一種中文姓名識(shí)別方法，實(shí)驗(yàn)表明該方法的正確率和召回率都較高，可以幫助進(jìn)一步提高自動(dòng)分詞的識(shí)別效果。2相關(guān)研究　　到目前為止，已有的中文姓名識(shí)別方法主要分為三類：基于規(guī)則的方法，基于統(tǒng)計(jì)的方法，基于規(guī)則和統(tǒng)計(jì)的方法?！　』诮y(tǒng)計(jì)的方法[2][3][5]主要依靠一個(gè)或多個(gè)具有代表性的訓(xùn)練語(yǔ)料庫(kù)，通過統(tǒng)計(jì)一些頻率信息來(lái)識(shí)別中文姓名。如姓名前置詞、姓氏用字、名字用字、姓名尾置詞等出現(xiàn)的頻率信息。這種方法用純數(shù)學(xué)的方法，比較簡(jiǎn)單，但

3、缺點(diǎn)是研究所使用的語(yǔ)料庫(kù)都是人為地選取的，一般規(guī)模比較小，很難保證它能體現(xiàn)實(shí)際中文姓名分布的一般規(guī)律。另外純粹利用統(tǒng)計(jì)算法，不能完全體現(xiàn)中文姓名的構(gòu)成規(guī)律?！　』谝?guī)則[4][6]的方法主要依靠中文姓名的結(jié)構(gòu)和特征，考慮了中文姓名的上下文信息來(lái)識(shí)別中文姓名。該方法主要是利用兩種信息：姓氏用字分類和限制性成分。分析過程中，當(dāng)掃描到具有明顯特征的姓氏用字時(shí)，開始觸發(fā)姓名的識(shí)別過程。并采集姓名前后的指界詞、稱謂詞等相關(guān)信息，對(duì)姓名的前后位置進(jìn)行限制。在缺乏大規(guī)模熟語(yǔ)料庫(kù)的時(shí)候，規(guī)則似乎是唯一可行的方法。這種方法減少了對(duì)語(yǔ)料庫(kù)的依賴，但缺點(diǎn)是中文姓名的識(shí)別規(guī)則會(huì)或多或少的存

4、在遺漏，而且這些規(guī)則是人為設(shè)計(jì)的，很難針對(duì)所有語(yǔ)料庫(kù)都適用?！　』谝?guī)則和統(tǒng)計(jì)相結(jié)合的方法[1][7][8]結(jié)合了兩者的優(yōu)點(diǎn)，一方面通過概率計(jì)算來(lái)減少方法的復(fù)雜性與盲目性，另一方面通過規(guī)則的使用降低對(duì)語(yǔ)料庫(kù)規(guī)模的要求。目前的研究大多采取規(guī)則與統(tǒng)計(jì)相結(jié)合的方法，只是規(guī)則與統(tǒng)計(jì)的側(cè)重不同。3中文姓名識(shí)別　　中文姓名的識(shí)別過程分為兩步?；诮y(tǒng)計(jì)的方法先獲得候選姓名，通過數(shù)學(xué)運(yùn)算可以在比較短的時(shí)間內(nèi)從大量信息中提取出可能的候選姓名。而后利用規(guī)則從候選姓名中篩選。規(guī)則比起數(shù)學(xué)運(yùn)算要慢了很多，但精確程度要高。因而先使用統(tǒng)計(jì)后使用規(guī)則的步驟可以兼顧時(shí)間效率和識(shí)別效果。3.1候選姓

5、名　　中文姓名長(zhǎng)度一般為2-4字，姓氏有復(fù)姓，名字一般為1、2個(gè)字。但有很大的隨意性，比如在很多語(yǔ)句中會(huì)出現(xiàn)有姓無(wú)名（“劉”），有名無(wú)姓（“小強(qiáng)”），稱謂（“廠長(zhǎng)”）等情況取代了姓名全稱。為了解決這些情況的識(shí)別，本文使用如下公式計(jì)算候選姓名概率?！　≡O(shè)中文姓名Name=XM，X是姓氏包括復(fù)氏，M為句中動(dòng)詞前非修飾部分，長(zhǎng)度一般為1-2字，但不做具體限制。于是候選姓名概率：　　p(Name)=α×p(X)+β×pm(M)+γ×pc(M)，α+β+γ=1,其中p(X)表示姓氏概率，pm(M)表示M是作為名字的概率，pc(M)：示M是作為稱謂的概率：　　p(X)=，　　p

6、m(M)=λ×+　　μ×，　　pc(M)=　　λ是單字名的概率，μ是雙字名的概率。這兩個(gè)參數(shù)可以通過統(tǒng)計(jì)信息得到。該候選姓名概率很好的解決了有姓無(wú)名，有名無(wú)姓不好區(qū)分的問題，同時(shí)考慮了這些可能，主要滿足其中一種情況，概率值都很得到很好的體現(xiàn)。對(duì)于“李明院長(zhǎng)”，因?yàn)槌浞掷昧朔Q謂一定會(huì)更容易識(shí)別。α、β、γ分別代表p(X),pm(M)和pc(M)對(duì)整體候選姓名概率評(píng)估的權(quán)值。他們的取值可以通過訓(xùn)練而來(lái)，一般姓氏對(duì)整體評(píng)估的權(quán)值α比重相對(duì)會(huì)占得大一些?！　∽鳛榕袛嗪蜻x姓名的依據(jù)，一定要有一個(gè)概率閾值，這個(gè)閾值往往通過訓(xùn)練得到，大于此概率閾值的便可作為候選姓名進(jìn)入到規(guī)則篩

7、選。3.2規(guī)則篩選　　姓名不是孤立存在的，而是作為句子的一部分出現(xiàn)的，那么利用姓名所在位置的前后相關(guān)信息可以幫助進(jìn)一步確定姓名，即在候選姓名的基礎(chǔ)上進(jìn)行篩選?！　∫粋€(gè)簡(jiǎn)單的句子只由主謂賓三部分組成。姓名往往做句子的主語(yǔ)和賓語(yǔ)。句子中總會(huì)出現(xiàn)動(dòng)詞，用于指示主語(yǔ)的行為，或賓語(yǔ)被施與的行為等。主語(yǔ)在動(dòng)詞前，賓語(yǔ)在動(dòng)詞后，減去修飾成分他們的位置幾乎是緊鄰的，知道動(dòng)詞的位置也就能辨別出主語(yǔ)和賓語(yǔ)的所在位置。因而利用好動(dòng)詞，可以對(duì)姓名的識(shí)別起到很好的提示作用?！　∵€有一些特殊的動(dòng)詞，不必考慮他的位置，只是單獨(dú)從詞性上就可以立刻判定姓名。因?yàn)檫@些動(dòng)詞是人類特有的。這種判斷可以

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 7



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于統(tǒng)計(jì)和規(guī)則的中文姓名識(shí)別

基于統(tǒng)計(jì)和規(guī)則的中文姓名識(shí)別

相關(guān)文章

相關(guān)標(biāo)簽