基于詞典的中文分詞算法研究.pdf

ID：52470118

大小：352.06 KB

頁數(shù)：5頁

時(shí)間：2020-03-27

資源描述：

《基于詞典的中文分詞算法研究.pdf》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、總第233期計(jì)算機(jī)與數(shù)字工程Vo1．37No．3Computer&DigitalEngineering682009年第3期基于詞典的中文分詞算法研究周程遠(yuǎn)朱敏楊云(華東師范大學(xué)計(jì)算中心上海200062)摘要中文分詞是計(jì)算機(jī)自動(dòng)處理文本的基礎(chǔ)。通過比較常用的機(jī)械分詞算法的優(yōu)缺點(diǎn)，提出了分層逐字二分算法，綜合了TRIE樹和逐字二分分詞的特點(diǎn)，以求通過較小的開銷來實(shí)現(xiàn)較快的匹配速度。實(shí)驗(yàn)結(jié)果表明，該算法在綜合性能上有顯著提高。關(guān)鍵詞中文分詞計(jì)算機(jī)應(yīng)用中文信息處理中圖分類號(hào)TP391．1ResearchonChineseWordSegmentationAlgorithmBasedontheD

2、ictionaryZhouChengyuanZhuMinYangYun(Dept．ofComputerCenter，EastChinaNormalUniversity，Shanghai200062)AbstractChinesewordsegmentationisthebaseforChineseinformationprocessing．Bycomparisoncommonlytheadvantagesanddisadvantagesofthemachinerywordsegmentationalgorithm，thenaliedverbatimbinaryalgorithmhas

3、beenpresented，whichintegratedTRIEtreesandverbatimbinarysearch'scharacteristics，trytotakethesmalleroverheadtoachievefastermatchspeed．Theresultsshowthatthealgorithminthecomprehensiveperformancehasmadesignificantincrease．KeywordsChinesewordsegmentation，computerapplication，Chineseinformationprocess

4、ingClassNumberTP39】．1典的分詞方法和基于頻度統(tǒng)計(jì)的分詞方法。具體應(yīng)l引言用時(shí)的不同算法則是二者不同程度的組合?；谠~由于漢語的書寫習(xí)慣，漢語句子中詞與詞之間典的分詞方法是以漢語詞典為基礎(chǔ)對中文語句通過的標(biāo)志是隱含的，英文的單詞與單詞之間有空格，匹配進(jìn)行切分，這種方法主要包括三種基本算法：正所以不存在分詞問題。而中文的每一句中詞與詞向最大匹配法、逆向最大匹配法、全切分法。之間是沒有空格的，因而必須采用某種技術(shù)將其分很多分詞系統(tǒng)較注重分詞的準(zhǔn)確率，而忽視了開。中文文本分詞算法從2O世紀(jì)8O年代以來就速度。在實(shí)時(shí)性要求比較高的場合下要求分析算一直是一個(gè)研究熱點(diǎn)，由于中文

5、語言的復(fù)雜性使之法對輸入句子做出迅速的反應(yīng)，所以分詞算法的效一直處于發(fā)展階段。中文分詞是中文信息處理的率在實(shí)時(shí)性應(yīng)用系統(tǒng)中的地位非常重要?；A(chǔ)與關(guān)鍵，從實(shí)際應(yīng)用上來說，中文分詞又是實(shí)本文列舉了一些比較常用的基于詞典的機(jī)械現(xiàn)計(jì)算機(jī)人工智能、智能搜索、人機(jī)對話、中文翻譯分詞算法，并且對幾種中文分詞處理的電子字典結(jié)以及web信息處理等核心應(yīng)用的關(guān)鍵技術(shù)。構(gòu)和相應(yīng)的查找算法作了性能比較。最后提出了自動(dòng)分詞的基本算法主要分為兩大類：基于詞一種改進(jìn)算法一分層逐字二分算法來提高分詞系收稿日期：2008年11月2日，修回日期：2008年11月19日作者簡介：周程遠(yuǎn)，男，碩士研究生，研究方向：現(xiàn)代軟件

6、技術(shù)。朱敏，女，高級工程師，研究方向：現(xiàn)代軟件技術(shù)、模式識(shí)別、圖像處理。楊云，女，工程師，研究方向：WEB應(yīng)用技術(shù)。第37卷(2009)第3期計(jì)算機(jī)與數(shù)字工程69統(tǒng)的效率。引表很容易確定指定詞在詞典正文中的可能位置范圍，進(jìn)而在詞典正文中通過整詞二分進(jìn)行定位。2基于詞典的機(jī)械分詞的方法2．1正向最大匹配分詞正向最大匹配分詞是基于詞典的分詞系統(tǒng)。所謂最大匹配，就是要求每一句的分詞結(jié)果中的詞匯總量最少。正向最大匹配分詞又分為增字和減字匹配法。增字匹配法需要一種特殊的詞典結(jié)構(gòu)支持，能夠達(dá)到較高的分詞效率。圖2基于整詞二分的分詞詞典結(jié)構(gòu)減字法的流程為：首先讀人一句句子，取出標(biāo)3．3基于TRIE

7、索引樹的分詞詞典機(jī)制【2]點(diǎn)符號(hào)，這樣句子就被分成相應(yīng)的若干段，然后對TRIE索引樹是一種以樹的多重鏈表形式表每一段進(jìn)行詞典的匹配，如果沒有匹配成功就從段示的鍵樹?；赥RIE索引樹的分詞詞典機(jī)制由末尾減去一個(gè)字，再進(jìn)行匹配，重復(fù)上述過程，直到首字散列表和TRIE索引樹結(jié)點(diǎn)兩部分組成。匹配成功某一個(gè)單詞。整句句子重復(fù)這些流程，到TRIE索引樹的優(yōu)點(diǎn)是在對被切分語句的一次掃句子全部分解成詞匯為止。如果事先知道詞典中描過程中，不需預(yù)知待查詢詞的長度，沿著樹鏈逐

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 5



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

基于詞典的中文分詞算法研究.pdf

基于詞典的中文分詞算法研究.pdf

相關(guān)文章

相關(guān)標(biāo)簽