基于統(tǒng)計(jì)和規(guī)則的中文姓名識(shí)別

基于統(tǒng)計(jì)和規(guī)則的中文姓名識(shí)別

ID:23378462

大?。?6.00 KB

頁(yè)數(shù):7頁(yè)

時(shí)間:2018-11-07

基于統(tǒng)計(jì)和規(guī)則的中文姓名識(shí)別_第1頁(yè)
基于統(tǒng)計(jì)和規(guī)則的中文姓名識(shí)別_第2頁(yè)
基于統(tǒng)計(jì)和規(guī)則的中文姓名識(shí)別_第3頁(yè)
基于統(tǒng)計(jì)和規(guī)則的中文姓名識(shí)別_第4頁(yè)
基于統(tǒng)計(jì)和規(guī)則的中文姓名識(shí)別_第5頁(yè)
資源描述:

《基于統(tǒng)計(jì)和規(guī)則的中文姓名識(shí)別》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。

1、基于統(tǒng)計(jì)和規(guī)則的中文姓名識(shí)別本文基于統(tǒng)計(jì)和規(guī)則提出一種中文識(shí)別方法。利用統(tǒng)計(jì)信息得到候選中文姓名,而后利用姓名前后的指界詞、稱謂詞等相關(guān)信息從候選中文姓名中進(jìn)行篩選,完成識(shí)別。實(shí)驗(yàn)表明該方法的正確率和召回率比較高,并且由于中文姓名在未登錄詞中占有很大比例,本文方法可以幫助進(jìn)一步提高漢語(yǔ)自動(dòng)分詞的識(shí)別效果。關(guān)鍵詞:漢語(yǔ)自動(dòng)分詞;未登錄詞識(shí)別;中文姓名識(shí)別;統(tǒng)計(jì)和規(guī)則1引言  隨著信息技術(shù)的飛速發(fā)展,中文信息處理技術(shù)已經(jīng)滲透到計(jì)算機(jī)應(yīng)用的各個(gè)領(lǐng)域。自動(dòng)分詞是中文信息處理技術(shù)的基礎(chǔ),其中未登錄詞的識(shí)別一直是自動(dòng)分詞的研究難點(diǎn),越來(lái)越多的研究者致力于提高未登錄詞的識(shí)別效率。

2、  中文姓名在未登錄詞中占有很大比例,所以中文姓名識(shí)別的正確率與召回率已經(jīng)成為影響整體自動(dòng)分詞正確率與召回率的一個(gè)重要因素。本文基于統(tǒng)計(jì)和規(guī)則提出一種中文姓名識(shí)別方法,實(shí)驗(yàn)表明該方法的正確率和召回率都較高,可以幫助進(jìn)一步提高自動(dòng)分詞的識(shí)別效果。2相關(guān)研究  到目前為止,已有的中文姓名識(shí)別方法主要分為三類:基于規(guī)則的方法,基于統(tǒng)計(jì)的方法,基于規(guī)則和統(tǒng)計(jì)的方法?! 』诮y(tǒng)計(jì)的方法[2][3][5]主要依靠一個(gè)或多個(gè)具有代表性的訓(xùn)練語(yǔ)料庫(kù),通過統(tǒng)計(jì)一些頻率信息來(lái)識(shí)別中文姓名。如姓名前置詞、姓氏用字、名字用字、姓名尾置詞等出現(xiàn)的頻率信息。這種方法用純數(shù)學(xué)的方法,比較簡(jiǎn)單,但

3、缺點(diǎn)是研究所使用的語(yǔ)料庫(kù)都是人為地選取的,一般規(guī)模比較小,很難保證它能體現(xiàn)實(shí)際中文姓名分布的一般規(guī)律。另外純粹利用統(tǒng)計(jì)算法,不能完全體現(xiàn)中文姓名的構(gòu)成規(guī)律?! 』谝?guī)則[4][6]的方法主要依靠中文姓名的結(jié)構(gòu)和特征,考慮了中文姓名的上下文信息來(lái)識(shí)別中文姓名。該方法主要是利用兩種信息:姓氏用字分類和限制性成分。分析過程中,當(dāng)掃描到具有明顯特征的姓氏用字時(shí),開始觸發(fā)姓名的識(shí)別過程。并采集姓名前后的指界詞、稱謂詞等相關(guān)信息,對(duì)姓名的前后位置進(jìn)行限制。在缺乏大規(guī)模熟語(yǔ)料庫(kù)的時(shí)候,規(guī)則似乎是唯一可行的方法。這種方法減少了對(duì)語(yǔ)料庫(kù)的依賴,但缺點(diǎn)是中文姓名的識(shí)別規(guī)則會(huì)或多或少的存

4、在遺漏,而且這些規(guī)則是人為設(shè)計(jì)的,很難針對(duì)所有語(yǔ)料庫(kù)都適用?! 』谝?guī)則和統(tǒng)計(jì)相結(jié)合的方法[1][7][8]結(jié)合了兩者的優(yōu)點(diǎn),一方面通過概率計(jì)算來(lái)減少方法的復(fù)雜性與盲目性,另一方面通過規(guī)則的使用降低對(duì)語(yǔ)料庫(kù)規(guī)模的要求。目前的研究大多采取規(guī)則與統(tǒng)計(jì)相結(jié)合的方法,只是規(guī)則與統(tǒng)計(jì)的側(cè)重不同。3中文姓名識(shí)別  中文姓名的識(shí)別過程分為兩步?;诮y(tǒng)計(jì)的方法先獲得候選姓名,通過數(shù)學(xué)運(yùn)算可以在比較短的時(shí)間內(nèi)從大量信息中提取出可能的候選姓名。而后利用規(guī)則從候選姓名中篩選。規(guī)則比起數(shù)學(xué)運(yùn)算要慢了很多,但精確程度要高。因而先使用統(tǒng)計(jì)后使用規(guī)則的步驟可以兼顧時(shí)間效率和識(shí)別效果。3.1候選姓

5、名  中文姓名長(zhǎng)度一般為2-4字,姓氏有復(fù)姓,名字一般為1、2個(gè)字。但有很大的隨意性,比如在很多語(yǔ)句中會(huì)出現(xiàn)有姓無(wú)名(“劉”),有名無(wú)姓(“小強(qiáng)”),稱謂(“廠長(zhǎng)”)等情況取代了姓名全稱。為了解決這些情況的識(shí)別,本文使用如下公式計(jì)算候選姓名概率?! ≡O(shè)中文姓名Name=XM,X是姓氏包括復(fù)氏,M為句中動(dòng)詞前非修飾部分,長(zhǎng)度一般為1-2字,但不做具體限制。于是候選姓名概率:  p(Name)=α×p(X)+β×pm(M)+γ×pc(M),α+β+γ=1,其中p(X)表示姓氏概率,pm(M)表示M是作為名字的概率,pc(M):示M是作為稱謂的概率:  p(X)=,  p

6、m(M)=λ×+  μ×,  pc(M)=  λ是單字名的概率,μ是雙字名的概率。這兩個(gè)參數(shù)可以通過統(tǒng)計(jì)信息得到。該候選姓名概率很好的解決了有姓無(wú)名,有名無(wú)姓不好區(qū)分的問題,同時(shí)考慮了這些可能,主要滿足其中一種情況,概率值都很得到很好的體現(xiàn)。對(duì)于“李明院長(zhǎng)”,因?yàn)槌浞掷昧朔Q謂一定會(huì)更容易識(shí)別。α、β、γ分別代表p(X),pm(M)和pc(M)對(duì)整體候選姓名概率評(píng)估的權(quán)值。他們的取值可以通過訓(xùn)練而來(lái),一般姓氏對(duì)整體評(píng)估的權(quán)值α比重相對(duì)會(huì)占得大一些?! ∽鳛榕袛嗪蜻x姓名的依據(jù),一定要有一個(gè)概率閾值,這個(gè)閾值往往通過訓(xùn)練得到,大于此概率閾值的便可作為候選姓名進(jìn)入到規(guī)則篩

7、選。3.2規(guī)則篩選  姓名不是孤立存在的,而是作為句子的一部分出現(xiàn)的,那么利用姓名所在位置的前后相關(guān)信息可以幫助進(jìn)一步確定姓名,即在候選姓名的基礎(chǔ)上進(jìn)行篩選?! ∫粋€(gè)簡(jiǎn)單的句子只由主謂賓三部分組成。姓名往往做句子的主語(yǔ)和賓語(yǔ)。句子中總會(huì)出現(xiàn)動(dòng)詞,用于指示主語(yǔ)的行為,或賓語(yǔ)被施與的行為等。主語(yǔ)在動(dòng)詞前,賓語(yǔ)在動(dòng)詞后,減去修飾成分他們的位置幾乎是緊鄰的,知道動(dòng)詞的位置也就能辨別出主語(yǔ)和賓語(yǔ)的所在位置。因而利用好動(dòng)詞,可以對(duì)姓名的識(shí)別起到很好的提示作用?! ∵€有一些特殊的動(dòng)詞,不必考慮他的位置,只是單獨(dú)從詞性上就可以立刻判定姓名。因?yàn)檫@些動(dòng)詞是人類特有的。這種判斷可以

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。