中文自動分詞程序文檔

中文自動分詞程序文檔

ID:25652714

大?。?2.00 KB

頁數(shù):4頁

時間:2018-11-21

中文自動分詞程序文檔_第1頁
中文自動分詞程序文檔_第2頁
中文自動分詞程序文檔_第3頁
中文自動分詞程序文檔_第4頁
資源描述:

《中文自動分詞程序文檔》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫

1、中文自動分詞程序文檔田碩張順昌(軟件所)漢語自動分詞算法按照不同分類標準,可以分為基于規(guī)則、基于統(tǒng)計的分詞方法和基于詞典切分、無詞典切分兩種。本程序采用詞典切分、基于規(guī)則的方法實現(xiàn)漢語自動分詞。由于很難取得大規(guī)模的標注語料,所以我們沒有采取基于統(tǒng)計的方法來做分詞,而是采取基于詞典的自動分詞,依照詞典newdict.txt(計算所自然語言處理平臺下載)采用正向最大匹配算法對輸入文件自動分隔處理,得到輸出結(jié)果。而且效果還是不錯的。本文第一部分主要介紹程序?qū)崿F(xiàn)中的詞典處理、正向最大匹配算法和自動分詞的過程,第二部

2、分程序的測評結(jié)果及分析,最后大體介紹作業(yè)分工及使用方法。1.程序?qū)崿F(xiàn)該程序按照特定的中文詞典,來進行自動分詞。其中使用的分詞詞典來源于計算所自然語言處理平臺的共享詞典,運用正向最大匹配算法,得到分詞處理之后的輸出結(jié)果。1.1詞典處理對于字典的組織,經(jīng)過簡單的統(tǒng)計分析,我們發(fā)現(xiàn)漢語中雙字的詞占多數(shù),所以該程序采用基于雙字hash的分詞詞典機制[1],其結(jié)構(gòu)分為三級,前兩級為索引。這樣可以快速的定位待分詞,可以明顯的提高分詞的效率。1)首字Hash索引首字Hash索引的每個單元包括三項內(nèi)容:①關(guān)鍵字(2byte

3、s):詞的第一個漢字A;②是否為詞(1bit):標示單個首字A是否為詞;③次字Hash索引指針(4bytes):指向以漢字A起始的所有詞語的第二個漢字的索引。2)次字Hash索引(僅對能跟第一個字構(gòu)成‘詞或詞的前綴’的字建立,與第一個字無關(guān)的漢字并無相應結(jié)點)次字Hash索引的每個單元也包括三項內(nèi)容:①關(guān)鍵字(2bytes):詞的第二個漢字B;②是否為詞(1bit):標示雙字串AB是否為詞;③剩余字串組指針(4bytes):指向以雙字串AB起始的所有詞語的剩余字串有序數(shù)組。3)剩余字串組剩余字串組是以雙字串

4、AB起始的所有詞語剩余字串的有序數(shù)組,每個單元包括兩項內(nèi)容:①剩余字串(不定長2nbytes):除去詞的前兩個字(A、B)后的剩余部分;②是否為詞(n-1bit):標示從第一個漢字A至對應位置的子串是否也構(gòu)成一個詞。利用動態(tài)分配的內(nèi)存空間存儲。裝載詞典時動態(tài)申請內(nèi)存空間,整個程序中都不會釋放,直到程序退出。這樣可以提高分詞的效率。詳細結(jié)構(gòu)見下圖:1.2正向最大匹配算法    for(i=0;i

5、ecord,str[i].han_item,num);record[num]='