資源描述:
《基于統(tǒng)計(jì)和規(guī)則的中文姓名識(shí)別》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。
1、基于統(tǒng)計(jì)和規(guī)則的中文姓名識(shí)別本文基于統(tǒng)計(jì)和規(guī)則提出一種中文識(shí)別方法。利用統(tǒng)計(jì)信息得到候選中文姓名,而后利用姓名前后的指界詞、稱謂詞等相關(guān)信息從候選中文姓名中進(jìn)行篩選,完成識(shí)別。實(shí)驗(yàn)表明該方法的正確率和召回率比較高,并且由于中文姓名在未登錄詞中占有很大比例,本文方法可以幫助進(jìn)一步提高漢語(yǔ)自動(dòng)分詞的識(shí)別效果。關(guān)鍵詞:漢語(yǔ)自動(dòng)分詞;未登錄詞識(shí)別;中文姓名識(shí)別;統(tǒng)計(jì)和規(guī)則1引言 隨著信息技術(shù)的飛速發(fā)展,中文信息處理技術(shù)已經(jīng)滲透到計(jì)算機(jī)應(yīng)用的各個(gè)領(lǐng)域。自動(dòng)分詞是中文信息處理技術(shù)的基礎(chǔ),其中未登錄詞的識(shí)別一直是自動(dòng)分詞的研究難點(diǎn),越來(lái)越多的研究者致力于提高未登錄詞的識(shí)別效率。
2、 中文姓名在未登錄詞中占有很大比例,所以中文姓名識(shí)別的正確率與召回率已經(jīng)成為影響整體自動(dòng)分詞正確率與召回率的一個(gè)重要因素。本文基于統(tǒng)計(jì)和規(guī)則提出一種中文姓名識(shí)別方法,實(shí)驗(yàn)表明該方法的正確率和召回率都較高,可以幫助進(jìn)一步提高自動(dòng)分詞的識(shí)別效果。2相關(guān)研究 到目前為止,已有的中文姓名識(shí)別方法主要分為三類:基于規(guī)則的方法,基于統(tǒng)計(jì)的方法,基于規(guī)則和統(tǒng)計(jì)的方法?! 』诮y(tǒng)計(jì)的方法[2][3][5]主要依靠一個(gè)或多個(gè)具有代表性的訓(xùn)練語(yǔ)料庫(kù),通過統(tǒng)計(jì)一些頻率信息來(lái)識(shí)別中文姓名。如姓名前置詞、姓氏用字、名字用字、姓名尾置詞等出現(xiàn)的頻率信息。這種方法用純數(shù)學(xué)的方法,比較簡(jiǎn)單,但
3、缺點(diǎn)是研究所使用的語(yǔ)料庫(kù)都是人為地選取的,一般規(guī)模比較小,很難保證它能體現(xiàn)實(shí)際中文姓名分布的一般規(guī)律。另外純粹利用統(tǒng)計(jì)算法,不能完全體現(xiàn)中文姓名的構(gòu)成規(guī)律?! 』谝?guī)則[4][6]的方法主要依靠中文姓名的結(jié)構(gòu)和特征,考慮了中文姓名的上下文信息來(lái)識(shí)別中文姓名。該方法主要是利用兩種信息:姓氏用字分類和限制性成分。分析過程中,當(dāng)掃描到具有明顯特征的姓氏用字時(shí),開始觸發(fā)姓名的識(shí)別過程。并采集姓名前后的指界詞、稱謂詞等相關(guān)信息,對(duì)姓名的前后位置進(jìn)行限制。在缺乏大規(guī)模熟語(yǔ)料庫(kù)的時(shí)候,規(guī)則似乎是唯一可行的方法。這種方法減少了對(duì)語(yǔ)料庫(kù)的依賴,但缺點(diǎn)是中文姓名的識(shí)別規(guī)則會(huì)或多或少的存
4、在遺漏,而且這些規(guī)則是人為設(shè)計(jì)的,很難針對(duì)所有語(yǔ)料庫(kù)都適用?! 』谝?guī)則和統(tǒng)計(jì)相結(jié)合的方法[1][7][8]結(jié)合了兩者的優(yōu)點(diǎn),一方面通過概率計(jì)算來(lái)減少方法的復(fù)雜性與盲目性,另一方面通過規(guī)則的使用降低對(duì)語(yǔ)料庫(kù)規(guī)模的要求。目前的研究大多采取規(guī)則與統(tǒng)計(jì)相結(jié)合的方法,只是規(guī)則與統(tǒng)計(jì)的側(cè)重不同。3中文姓名識(shí)別 中文姓名的識(shí)別過程分為兩步?;诮y(tǒng)計(jì)的方法先獲得候選姓名,通過數(shù)學(xué)運(yùn)算可以在比較短的時(shí)間內(nèi)從大量信息中提取出可能的候選姓名。而后利用規(guī)則從候選姓名中篩選。規(guī)則比起數(shù)學(xué)運(yùn)算要慢了很多,但精確程度要高。因而先使用統(tǒng)計(jì)后使用規(guī)則的步驟可以兼顧時(shí)間效率和識(shí)別效果。3.1候選姓
5、名 中文姓名長(zhǎng)度一般為2-4字,姓氏有復(fù)姓,名字一般為1、2個(gè)字。但有很大的隨意性,比如在很多語(yǔ)句中會(huì)出現(xiàn)有姓無(wú)名(“劉”),有名無(wú)姓(“小強(qiáng)”),稱謂(“廠長(zhǎng)”)等情況取代了姓名全稱。為了解決這些情況的識(shí)別,本文使用如下公式計(jì)算候選姓名概率?! ≡O(shè)中文姓名Name=XM,X是姓氏包括復(fù)氏,M為句中動(dòng)詞前非修飾部分,長(zhǎng)度一般為1-2字,但不做具體限制。于是候選姓名概率: p(Name)=α×p(X)+β×pm(M)+γ×pc(M),α+β+γ=1,其中p(X)表示姓氏概率,pm(M)表示M是作為名字的概率,pc(M):示M是作為稱謂的概率: p(X)=, p
6、m(M)=λ×+ μ×, pc(M)= λ是單字名的概率,μ是雙字名的概率。這兩個(gè)參數(shù)可以通過統(tǒng)計(jì)信息得到。該候選姓名概率很好的解決了有姓無(wú)名,有名無(wú)姓不好區(qū)分的問題,同時(shí)考慮了這些可能,主要滿足其中一種情況,概率值都很得到很好的體現(xiàn)。對(duì)于“李明院長(zhǎng)”,因?yàn)槌浞掷昧朔Q謂一定會(huì)更容易識(shí)別。α、β、γ分別代表p(X),pm(M)和pc(M)對(duì)整體候選姓名概率評(píng)估的權(quán)值。他們的取值可以通過訓(xùn)練而來(lái),一般姓氏對(duì)整體評(píng)估的權(quán)值α比重相對(duì)會(huì)占得大一些?! ∽鳛榕袛嗪蜻x姓名的依據(jù),一定要有一個(gè)概率閾值,這個(gè)閾值往往通過訓(xùn)練得到,大于此概率閾值的便可作為候選姓名進(jìn)入到規(guī)則篩
7、選。3.2規(guī)則篩選 姓名不是孤立存在的,而是作為句子的一部分出現(xiàn)的,那么利用姓名所在位置的前后相關(guān)信息可以幫助進(jìn)一步確定姓名,即在候選姓名的基礎(chǔ)上進(jìn)行篩選?! ∫粋€(gè)簡(jiǎn)單的句子只由主謂賓三部分組成。姓名往往做句子的主語(yǔ)和賓語(yǔ)。句子中總會(huì)出現(xiàn)動(dòng)詞,用于指示主語(yǔ)的行為,或賓語(yǔ)被施與的行為等。主語(yǔ)在動(dòng)詞前,賓語(yǔ)在動(dòng)詞后,減去修飾成分他們的位置幾乎是緊鄰的,知道動(dòng)詞的位置也就能辨別出主語(yǔ)和賓語(yǔ)的所在位置。因而利用好動(dòng)詞,可以對(duì)姓名的識(shí)別起到很好的提示作用?! ∵€有一些特殊的動(dòng)詞,不必考慮他的位置,只是單獨(dú)從詞性上就可以立刻判定姓名。因?yàn)檫@些動(dòng)詞是人類特有的。這種判斷可以