基于兩字詞簇的漢語快速自動分詞算法

基于兩字詞簇的漢語快速自動分詞算法

ID:38133088

大小:180.04 KB

頁數(shù):6頁

時間:2019-05-25

基于兩字詞簇的漢語快速自動分詞算法_第1頁
基于兩字詞簇的漢語快速自動分詞算法_第2頁
基于兩字詞簇的漢語快速自動分詞算法_第3頁
基于兩字詞簇的漢語快速自動分詞算法_第4頁
基于兩字詞簇的漢語快速自動分詞算法_第5頁
資源描述:

《基于兩字詞簇的漢語快速自動分詞算法》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在行業(yè)資料-天天文庫

1、第17卷第5期情報學報Vol.17,No,51998年10月October,1998信息處理基于兩字詞簇的漢語快速自動分詞算法郭祥昊鐘義信楊麗(北京郵電大學人工智能實驗室,北京100876)(北方交通大學,北京100044)摘要本文提出了一種快速漢語自動分詞算法。其主要思想是利用漢語中兩字詞占75%的統(tǒng)計規(guī)律,提出了兩字詞根和兩字詞簇的概念。算法把三音節(jié)以上的詞用兩字詞簇來壓縮處理,也就是把長詞的掃描范圍限定在詞匯量很小的詞簇內(nèi),從而不僅提高了分詞速度,而且徹底解決了傳統(tǒng)最大匹配分詞算法中最大匹配詞長的設定問題。另外,本文還提出了用兩字詞簇快速檢測交叉歧義的算法

2、。本文的分詞算法簡潔、速度快、易于實現(xiàn)。關鍵詞自然語言處理分詞算法切分歧義AFastAlgorithmforChineseWordsAutomaticSegmentBasedonTwo-letters-word-familyStructureGuoXianghaoandZhongYixin(AILab,BeijingUniversityofPostandTelecommunication,Beijing100876)YangLi(CECECenter,NorthernJiaotongUniversity,Beijing100044)AbstractAfastal

3、gorithmforChinesewordsautomaticsegmentisputforwardinthispaper.Astructurecalled/two-letters-word-family0whichisthecollectionofalltheChinesewordsthatsharethesamebeginningtwolettersisintroduced.ThekeyideaofthealgorithmistocompressthewordswhichconsistofmorethanthreeChineselettersintotwo-

4、letters-word-familyandhandletogetherusinglengthchangingmaximummatchingalgorithm.Inadditiontothis,anewmethodtodetectsegmentingambigu-ousnessisalsointroduced.Keywordsnaturallanguageprocessing,Chinesewordsautomaticsegmenting,segmentingambigu-ousness.1問題的提出自動分詞是漢語自然語言處理的第一步。目前,漢語自然語言處理的應

5、用系統(tǒng)處理對象收稿日期:1998年1月12日作者簡介:郭祥昊,1970年生,博士研究生,主要研究領域為人工智能、自然語言處理。鐘義信,1940年生,教授,博士生導師,主要研究領域為信息科學理論、通信理論、人工智能與人工神經(jīng)網(wǎng)絡。楊麗,1971年生,碩士研究生,研究方向為智能電子系統(tǒng)。5期基于兩字詞簇的漢語快速自動分詞算法353越來越多的是大規(guī)模語料(如Internet信息搜索引擎,各種全文檢索系統(tǒng)等),因此分詞的速度和分詞算法的易實現(xiàn)性變得相當關鍵。在多種分詞算法中,正向最大匹配分詞算法(Max-imumMatching,簡稱MM算法)簡潔、易于實現(xiàn),在實際工程

6、中應用最為廣泛。但是,它是長詞優(yōu)先的機械匹配算法,存在著以下不足:1速度慢。設分詞詞典的詞條數(shù)為N,最大匹配詞長為M,在詞典的詞條沒有進行排序和索引的極端情形下,為了識別出一個兩字詞須平均進行(M-2)N+N/2次掃描匹配。當詞條數(shù)目N比較大的時候,速度慢得難以忍受。o難以設定最大匹配詞長M。M較大時,該算法的時間復雜度明顯提高(見表1)。為提高速度而降低M又將使算法不能識別漢字數(shù)目大于M的詞,導致切分精度降低。M取多大才合適,學術(shù)界一[1]直有爭論,也是實際應用中難以處理的問題之一。?最大匹配分詞方法不能發(fā)現(xiàn)交叉切分歧義。解決這個問題的一般方法是再進行一次逆向

7、最大匹配(ReverseMaximumMatching)分詞,兩者結(jié)合起來發(fā)現(xiàn)交叉歧義。但是這樣做,算法的時間復雜度至少是MM算法的兩倍。表1分詞實驗結(jié)果兩字詞根法正向MM法逆向MM法詞典詞條數(shù)322104244942449實際詞匯數(shù)424494244942449速度1127(無歧義校正)13176(M=6)13124(M=6)(秒)2155(有歧義校正)18121(M=7)17167(M=7)9512%(無歧義校正)正確率9512%(M=7)9716%(M=7)9910%(有歧義校正)注:1)實驗語料來自5人民日報6,共5484字。實驗是在奔騰166微機上進行

8、的。2)歧義校正算法參考

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。