基于詞典的中文分詞算法研究.pdf

基于詞典的中文分詞算法研究.pdf

ID:52470118

大小:352.06 KB

頁數(shù):5頁

時(shí)間:2020-03-27

基于詞典的中文分詞算法研究.pdf_第1頁
基于詞典的中文分詞算法研究.pdf_第2頁
基于詞典的中文分詞算法研究.pdf_第3頁
基于詞典的中文分詞算法研究.pdf_第4頁
基于詞典的中文分詞算法研究.pdf_第5頁
資源描述:

《基于詞典的中文分詞算法研究.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、總第233期計(jì)算機(jī)與數(shù)字工程Vo1.37No.3Computer&DigitalEngineering682009年第3期基于詞典的中文分詞算法研究周程遠(yuǎn)朱敏楊云(華東師范大學(xué)計(jì)算中心上海200062)摘要中文分詞是計(jì)算機(jī)自動(dòng)處理文本的基礎(chǔ)。通過比較常用的機(jī)械分詞算法的優(yōu)缺點(diǎn),提出了分層逐字二分算法,綜合了TRIE樹和逐字二分分詞的特點(diǎn),以求通過較小的開銷來實(shí)現(xiàn)較快的匹配速度。實(shí)驗(yàn)結(jié)果表明,該算法在綜合性能上有顯著提高。關(guān)鍵詞中文分詞計(jì)算機(jī)應(yīng)用中文信息處理中圖分類號(hào)TP391.1ResearchonChineseWordSegmentationAlgorithmBasedontheD

2、ictionaryZhouChengyuanZhuMinYangYun(Dept.ofComputerCenter,EastChinaNormalUniversity,Shanghai200062)AbstractChinesewordsegmentationisthebaseforChineseinformationprocessing.Bycomparisoncommonlytheadvantagesanddisadvantagesofthemachinerywordsegmentationalgorithm,thenaliedverbatimbinaryalgorithmhas

3、beenpresented,whichintegratedTRIEtreesandverbatimbinarysearch'scharacteristics,trytotakethesmalleroverheadtoachievefastermatchspeed.Theresultsshowthatthealgorithminthecomprehensiveperformancehasmadesignificantincrease.KeywordsChinesewordsegmentation,computerapplication,Chineseinformationprocess

4、ingClassNumberTP39】.1典的分詞方法和基于頻度統(tǒng)計(jì)的分詞方法。具體應(yīng)l引言用時(shí)的不同算法則是二者不同程度的組合?;谠~由于漢語的書寫習(xí)慣,漢語句子中詞與詞之間典的分詞方法是以漢語詞典為基礎(chǔ)對中文語句通過的標(biāo)志是隱含的,英文的單詞與單詞之間有空格,匹配進(jìn)行切分,這種方法主要包括三種基本算法:正所以不存在分詞問題。而中文的每一句中詞與詞向最大匹配法、逆向最大匹配法、全切分法。之間是沒有空格的,因而必須采用某種技術(shù)將其分很多分詞系統(tǒng)較注重分詞的準(zhǔn)確率,而忽視了開。中文文本分詞算法從2O世紀(jì)8O年代以來就速度。在實(shí)時(shí)性要求比較高的場合下要求分析算一直是一個(gè)研究熱點(diǎn),由于中文

5、語言的復(fù)雜性使之法對輸入句子做出迅速的反應(yīng),所以分詞算法的效一直處于發(fā)展階段。中文分詞是中文信息處理的率在實(shí)時(shí)性應(yīng)用系統(tǒng)中的地位非常重要?;A(chǔ)與關(guān)鍵,從實(shí)際應(yīng)用上來說,中文分詞又是實(shí)本文列舉了一些比較常用的基于詞典的機(jī)械現(xiàn)計(jì)算機(jī)人工智能、智能搜索、人機(jī)對話、中文翻譯分詞算法,并且對幾種中文分詞處理的電子字典結(jié)以及web信息處理等核心應(yīng)用的關(guān)鍵技術(shù)。構(gòu)和相應(yīng)的查找算法作了性能比較。最后提出了自動(dòng)分詞的基本算法主要分為兩大類:基于詞一種改進(jìn)算法一分層逐字二分算法來提高分詞系收稿日期:2008年11月2日,修回日期:2008年11月19日作者簡介:周程遠(yuǎn),男,碩士研究生,研究方向:現(xiàn)代軟件

6、技術(shù)。朱敏,女,高級工程師,研究方向:現(xiàn)代軟件技術(shù)、模式識(shí)別、圖像處理。楊云,女,工程師,研究方向:WEB應(yīng)用技術(shù)。第37卷(2009)第3期計(jì)算機(jī)與數(shù)字工程69統(tǒng)的效率。引表很容易確定指定詞在詞典正文中的可能位置范圍,進(jìn)而在詞典正文中通過整詞二分進(jìn)行定位。2基于詞典的機(jī)械分詞的方法2.1正向最大匹配分詞正向最大匹配分詞是基于詞典的分詞系統(tǒng)。所謂最大匹配,就是要求每一句的分詞結(jié)果中的詞匯總量最少。正向最大匹配分詞又分為增字和減字匹配法。增字匹配法需要一種特殊的詞典結(jié)構(gòu)支持,能夠達(dá)到較高的分詞效率。圖2基于整詞二分的分詞詞典結(jié)構(gòu)減字法的流程為:首先讀人一句句子,取出標(biāo)3.3基于TRIE

7、索引樹的分詞詞典機(jī)制【2]點(diǎn)符號(hào),這樣句子就被分成相應(yīng)的若干段,然后對TRIE索引樹是一種以樹的多重鏈表形式表每一段進(jìn)行詞典的匹配,如果沒有匹配成功就從段示的鍵樹?;赥RIE索引樹的分詞詞典機(jī)制由末尾減去一個(gè)字,再進(jìn)行匹配,重復(fù)上述過程,直到首字散列表和TRIE索引樹結(jié)點(diǎn)兩部分組成。匹配成功某一個(gè)單詞。整句句子重復(fù)這些流程,到TRIE索引樹的優(yōu)點(diǎn)是在對被切分語句的一次掃句子全部分解成詞匯為止。如果事先知道詞典中描過程中,不需預(yù)知待查詢詞的長度,沿著樹鏈逐

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。