資源描述:
《中文自動分詞關鍵技術研究與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、中文摘要近年來,隨著計算機的普及與信息化的發(fā)展,中文信息處理技術的應用日益廣泛,中文自動分詞技術是中文信息處理的基礎,已應用在文本校對、機器魏譯、文本分類、自動摘要、信息檢索、計算機入機接口等諸多領域。本文在對傳統(tǒng)的中文自動分詞系統(tǒng)及主要分詞技術研究的基礎上,做了多方改進,完成了一個實用、嵩效的分詞系統(tǒng)原型。本課題主要對中文自動分詞關鍵技術:自動分詞方法、歧義字段的處理方法以及命名實體的計算機自動識別方法等技術進行了分析翻研究。本文所傲的主要工作如下:1.針對易引起歧義的特征詞,提出了一種對特征詞的特殊處理方法,對每個特征詞創(chuàng)建了相應的規(guī)則,構造了針對特征詞的規(guī)則庫,利用特征詞的規(guī)
2、則庫進行初步切分,這樣不但提高了切分速度,且解決了部分歧義問題。2.針對傳統(tǒng)的正向最大匹配算法的缺陷,對該算法進行了改進,在匹配的過程中根據舀經掃描過的詞來確定是否繼續(xù)匹配下去,動態(tài)的確定要匹配的長度,這樣不但減少了平均匹配操作的次數(shù),不受詞長的限制,充分體現(xiàn)了“長詞優(yōu)先’’的原則,置提高了切分的速度。3.針對歧義的處理,采用了多步分層消除歧義技術,首先在粗分割模塊利用特征詞消除了一部分歧義,還存在歧義的字段在最蜃的歧義消除模塊利用長詞優(yōu)先及右規(guī)約技術進行消歧,使切分結果正確率進一步提高。4.詞典的設計方面,為了適合切分算法,因算法要頻繁查詢一個字宰是否為一個詞的前綴,因此把詞典中
3、的詞劃分為兩類:真正意義上的詞與詞的前綴,這樣更有利于切分過程的查詢,進一步提高了切分的速度。5.對文本中的出現(xiàn)豹命名實體如中外入名、地名、機構名、時間稻數(shù)字等未登錄詞,分析它們的特點,設計了相應的識別方法。經過大量豹實驗表明:本文實現(xiàn)的中文爨動分詞原型具有較高的切分速度,平均達到了195,601漢字/秒,同時在切分的準確率方面達到了98.08%,可見系統(tǒng)有較好的性能。關鍵詞:中文自動分詞,歧義處理,最大匹配,人名識別ABS鬈溘(了rABSTRACTIIlrecentyears,along、歷mc0哪puterfspopularizationandmemfo咖ation融文op撒e
4、ll_t'CK勰seinfo嫩撕。玨p螂潲singte曲nologya∞l主cati鼴isw主de薹yllsed,mea曲esewordau脅maticsegm酬ationisme向undationofChinese諏f.onllation蟬Iocessin島hasapIpliod試textchecl(in&maclline勃『羽[1sl撕oll,textclassificatio塢躺lom蕊c曲s溉ct,in內髓蕊on蚓蛙刪越,man一擻achine攮te彘eeof∞玨lpu衙雅dSo蛐andalreadybecamea舶nttopicofChjlleseiIlfIo姍ation
5、processiIlg.孤s也eSis纛鑫si翻蹬掰斑遺m8拶張巧洛舾趣也e拋di蛀。越隘豫se鞠.to撒撕e8egmeIltationsyst蹦landthecurrc呲ChiIleseautomaticsegmentationtechnology'and∞穗ple矧a刪ica董ande麓cie
6、ltseg耀鍶Ita_矗。黢sysl鼬舅奄幻ty弦.弧lepap鰈主sma主越y(tǒng)aboutmememodofCmneseautomaticse舯酬ati01l,mewayofhandling鋤曲igui妙wordse舯entatio瑪觚d也ememodofspecialwordautom
7、alicse舯entatioll.FollowreseaI.ch圭lasbeendone:1.mmepreliminaryse舯entationmodule,anewsegm鉍tationmemodusing印ec蕊馥afa文矗始cSw髓瓠was湖s甜,徽d氌e∞艘spon式觳g稀lesofmosewordswerccon蛐mcted.Usedtll08ewords’fIeatl】reto“tialc1也itwill霸◇to遵ye薹:蠡a建ee餓es鍵瞄嘲a矗。拄s闡,融a董soSolveSo氆e辮.oble毽of撇bigui夠2.融也eprecisesegmentat至onmod
8、ule,so搬e主nlpfoV鼬e嫩haSbeen擻adet0me挺adition越forwardmaXiln凇matcha重gori醢搬.田le婦proVedalg嘶mmdyn鋤icallydetennjncthel馓g吐lofthematChingword,itwillnotonlyred_uce餓eave豫g黟搽斑b鐨ofm戳幽ngop蒯。鼓,b哦觸ly瓤bomesme”long—t髏mpriority¨principle,somenewaLlgorin1:mc