一種中文分詞詞典新機制—雙字哈希機制

一種中文分詞詞典新機制—雙字哈希機制

ID:5379010

大?。?81.46 KB

頁數(shù):11頁

時間:2017-12-08

一種中文分詞詞典新機制—雙字哈希機制_第1頁
一種中文分詞詞典新機制—雙字哈希機制_第2頁
一種中文分詞詞典新機制—雙字哈希機制_第3頁
一種中文分詞詞典新機制—雙字哈希機制_第4頁
一種中文分詞詞典新機制—雙字哈希機制_第5頁
資源描述:

《一種中文分詞詞典新機制—雙字哈希機制》由會員上傳分享,免費在線閱讀,更多相關內容在應用文檔-天天文庫。

1、中文信息學報第!"卷第#期!"#$%&’"()*+%,-,+%("$.&/+"%0$"),--+%1234$!"%3$#文章編號:!%%&’%%""((%%&)%#’%%!&’%)!一種中文分詞詞典新機制———雙字哈希機制李慶虎,陳玉健,孫家廣(清華大學計算機系,北京!%%%*#)摘要:漢語自動分詞是漢語信息處理的前提,詞典是漢語自動分詞的基礎,分詞詞典機制的優(yōu)劣直接影響到中文分詞的速度和效率。本文首先分析了分詞詞典機制在中文分詞中的重要性及已有的三種典型詞典機制,并在此基礎上根據(jù)漢語中雙字詞語較多的特點

2、提出了一種新的分詞詞典機制———雙字哈希機制,在不提升已有典型詞典機制空間復雜度與維護復雜度的情況下,提高了中文分詞的速度和效率。關鍵詞:計算機應用;中文信息處理;中文分詞;雙字哈希中圖分類號:+,&-!.!文獻標識碼:/&%56789:83;<=>.59?<;8@AB3=)?8;5@5C3=D-5EA5;:<:83;012345678,9:;<=86>3?4,@A

3、QD3>345!%%%*#,9734?)&F@:=<9::9734DODRIFLOD5HD4G?G3I43OG7DEFDE?F?G3I4JIF9734DOD14JIFH?G3I4,FIKDOO345./OI4DS?O3KKIHEI4D4GIJ9734DODRIFLOD5HD4G?G3I4ONOGDHO,G7DL3KG3I4?FNHDK7?43OH34JM8D4KDOG7DOEDDL?4LDJJ3K3D4KNIJOD5HD4G?G3I4O3543J3K?4GMN.14G73OE?EDF,RDEFIP3LD?

4、4DRL3KG3I4?FNHDK7?43OH4?HDLLI8SMD6K7?F?KGDF67?O7634LDT345(C9:1).9IHE?FDLR3G7DT3OG345GNE3K?ML3KG3I4?FNHDK7?43OHO(3.D.S34?FN6ODDU6SN6RIFL,+V1;34LDT345GFDD?4LS34?FN6ODDU6SN6K7?F?KGDFO),C9:13HEFIPDOG7DOEDDL?4LDJJ3K3D4KNIJOD5HD4G?G3I4R3G7I8G34KFD?O345G7DOE?KD?

5、4LG3HDKIHEM3K?G3I4?4LH?34GD4?4KDL3JJ3K8MGN.G5>63=D@:KIHE8GDF?EEM3K?G3I4;9734DOD34JIFH?G3I4EFIKDOO345;9734DODRIFLOD5HD4G?G3I4;L3KG3I4?FNHDK7?643OH;LI8SMDK7?F?KGDF7?O734LDT345一、引言漢語自動分詞是漢語信息處理的前提,廣泛應用于中文全文檢索、中文自動全文翻譯、中文文語轉換(++@)等領域。自動分詞的基本算法主要分為兩大類:基于詞典的分詞方

6、法[!,(]和基于頻度統(tǒng)計的分詞方法[),"]。具體應用時的不同算法則是二者不同程度的組合?;谠~典的分詞方法是以漢語詞典為基礎對中文語句通過匹配進行切分,這種方法主要包括&種基本算法[&]:正向最大匹配法、逆向最大匹配法、全切分法。正向最大匹配法(WWQ)的目的是把最長的詞給切分出來。它首先假定最大詞長度為0,從句首取長度為0的字串進行匹配,如果匹配成功則認為此字串為一個詞,再從它的下一個字開始繼續(xù)該過程;如果匹配不成功則去掉此字串的最后一個字進行匹配,直至匹配成功或子句為空。逆向最大匹配法(VWWQ)

7、的算法與WWQ的算法相同,只是切分方向為從右向左,而!收稿日期:(%%(’%)’!"基金項目:教育部專項基金資助項目((%%!Q/!%!/!(’%();-"&計劃資助((%%(9Q&!(%%))作者簡介:李慶虎(!-"-—),男,博士生,主要研究方向為數(shù)據(jù)庫技術、網絡計算、遠程教育.!&且如果匹配不成功去掉的是第一個漢字,相當于先將被切分字串逐字反轉形成新的字串再進行正向最大匹配。使用!""#與""#,是存在切分盲點的,并不能發(fā)現(xiàn)全部交叉歧義。全切分法則能夠通過全歸約過程得到所給字串的所有歸約式,即它能夠

8、得到所有可行的切分方案、消除切分盲點。不論是哪種基于詞典的分詞方法,分詞詞典的查詢速度是匹配算法效率的直接決定因素,因而建立高效快速的分詞詞典機制勢在必行[$]。本文首先簡單描述了已有的分詞詞典機制,接著介紹了我們提出的新的詞典機制———雙字哈希索引結構(%&’()*+,-./.01*/+2.3-+456*7+859),最后對新的機制和已有的機制進行了比較和實驗分析。二、已有詞典機制文獻[$]指出了三種典型的分詞詞典機制,下邊

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。