資源描述:
《基于兩字詞簇的漢語快速自動分詞算法》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在行業(yè)資料-天天文庫。
1、第17卷第5期情報學報Vol.17,No,51998年10月October,1998信息處理基于兩字詞簇的漢語快速自動分詞算法郭祥昊鐘義信楊麗(北京郵電大學人工智能實驗室,北京100876)(北方交通大學,北京100044)摘要本文提出了一種快速漢語自動分詞算法。其主要思想是利用漢語中兩字詞占75%的統(tǒng)計規(guī)律,提出了兩字詞根和兩字詞簇的概念。算法把三音節(jié)以上的詞用兩字詞簇來壓縮處理,也就是把長詞的掃描范圍限定在詞匯量很小的詞簇內(nèi),從而不僅提高了分詞速度,而且徹底解決了傳統(tǒng)最大匹配分詞算法中最大匹配詞長的設定問題。另外,本文還提出了用兩字詞簇快速檢測交叉歧義的算法
2、。本文的分詞算法簡潔、速度快、易于實現(xiàn)。關鍵詞自然語言處理分詞算法切分歧義AFastAlgorithmforChineseWordsAutomaticSegmentBasedonTwo-letters-word-familyStructureGuoXianghaoandZhongYixin(AILab,BeijingUniversityofPostandTelecommunication,Beijing100876)YangLi(CECECenter,NorthernJiaotongUniversity,Beijing100044)AbstractAfastal
3、gorithmforChinesewordsautomaticsegmentisputforwardinthispaper.Astructurecalled/two-letters-word-family0whichisthecollectionofalltheChinesewordsthatsharethesamebeginningtwolettersisintroduced.ThekeyideaofthealgorithmistocompressthewordswhichconsistofmorethanthreeChineselettersintotwo-
4、letters-word-familyandhandletogetherusinglengthchangingmaximummatchingalgorithm.Inadditiontothis,anewmethodtodetectsegmentingambigu-ousnessisalsointroduced.Keywordsnaturallanguageprocessing,Chinesewordsautomaticsegmenting,segmentingambigu-ousness.1問題的提出自動分詞是漢語自然語言處理的第一步。目前,漢語自然語言處理的應
5、用系統(tǒng)處理對象收稿日期:1998年1月12日作者簡介:郭祥昊,1970年生,博士研究生,主要研究領域為人工智能、自然語言處理。鐘義信,1940年生,教授,博士生導師,主要研究領域為信息科學理論、通信理論、人工智能與人工神經(jīng)網(wǎng)絡。楊麗,1971年生,碩士研究生,研究方向為智能電子系統(tǒng)。5期基于兩字詞簇的漢語快速自動分詞算法353越來越多的是大規(guī)模語料(如Internet信息搜索引擎,各種全文檢索系統(tǒng)等),因此分詞的速度和分詞算法的易實現(xiàn)性變得相當關鍵。在多種分詞算法中,正向最大匹配分詞算法(Max-imumMatching,簡稱MM算法)簡潔、易于實現(xiàn),在實際工程
6、中應用最為廣泛。但是,它是長詞優(yōu)先的機械匹配算法,存在著以下不足:1速度慢。設分詞詞典的詞條數(shù)為N,最大匹配詞長為M,在詞典的詞條沒有進行排序和索引的極端情形下,為了識別出一個兩字詞須平均進行(M-2)N+N/2次掃描匹配。當詞條數(shù)目N比較大的時候,速度慢得難以忍受。o難以設定最大匹配詞長M。M較大時,該算法的時間復雜度明顯提高(見表1)。為提高速度而降低M又將使算法不能識別漢字數(shù)目大于M的詞,導致切分精度降低。M取多大才合適,學術(shù)界一[1]直有爭論,也是實際應用中難以處理的問題之一。?最大匹配分詞方法不能發(fā)現(xiàn)交叉切分歧義。解決這個問題的一般方法是再進行一次逆向
7、最大匹配(ReverseMaximumMatching)分詞,兩者結(jié)合起來發(fā)現(xiàn)交叉歧義。但是這樣做,算法的時間復雜度至少是MM算法的兩倍。表1分詞實驗結(jié)果兩字詞根法正向MM法逆向MM法詞典詞條數(shù)322104244942449實際詞匯數(shù)424494244942449速度1127(無歧義校正)13176(M=6)13124(M=6)(秒)2155(有歧義校正)18121(M=7)17167(M=7)9512%(無歧義校正)正確率9512%(M=7)9716%(M=7)9910%(有歧義校正)注:1)實驗語料來自5人民日報6,共5484字。實驗是在奔騰166微機上進行
8、的。2)歧義校正算法參考