詞典與統(tǒng)計(jì)相結(jié)合的中文分詞算法研究

詞典與統(tǒng)計(jì)相結(jié)合的中文分詞算法研究

ID:38115775

大?。?50.38 KB

頁(yè)數(shù):4頁(yè)

時(shí)間:2019-05-25

詞典與統(tǒng)計(jì)相結(jié)合的中文分詞算法研究_第1頁(yè)
詞典與統(tǒng)計(jì)相結(jié)合的中文分詞算法研究_第2頁(yè)
詞典與統(tǒng)計(jì)相結(jié)合的中文分詞算法研究_第3頁(yè)
詞典與統(tǒng)計(jì)相結(jié)合的中文分詞算法研究_第4頁(yè)
資源描述:

《詞典與統(tǒng)計(jì)相結(jié)合的中文分詞算法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、第32卷第6期武漢理工大學(xué)學(xué)報(bào)信息與管理工程版Vo.l32No.62010年12月JOURNALOFWUT(INFORMATION&MANAGEMENTENGINEERING)Dec.2010文章編號(hào):1007-144X(2010)06-0907-03文獻(xiàn)標(biāo)志碼:A詞典與統(tǒng)計(jì)相結(jié)合的中文分詞算法研究李宏波(武漢理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北武漢430070)摘要:基于對(duì)算法的時(shí)間復(fù)雜度和分詞精度的綜合考慮,提出了一種分詞詞典和統(tǒng)計(jì)分析相結(jié)合的解決方案。該算法采用統(tǒng)計(jì)和機(jī)械分詞相結(jié)合的策略,合理解決了歧義詞和未登錄詞兩大難題,實(shí)驗(yàn)證明分詞效果比較理想。關(guān)鍵詞:分詞詞典

2、;統(tǒng)計(jì)分析;未登錄詞;歧義詞中圖分類號(hào):TK91DOI:10.3963/.jissn.1007-144X.2010.06.013中文分詞是中文信息處理系統(tǒng)中非常重要的個(gè)難題,即歧義問(wèn)題,機(jī)械分詞也不能做出任何貢一部分,在漢語(yǔ)中詞是最小的語(yǔ)言單位,要想處理獻(xiàn)。機(jī)械分詞有其自身的優(yōu)點(diǎn),只要是詞典中存好句子層面的問(wèn)題,就一定要先解決好詞層面上在的詞條,算法的分詞準(zhǔn)確率、分全率等分詞精度的問(wèn)題。雖然中文分詞技術(shù)已經(jīng)有了較大的發(fā)指標(biāo)表現(xiàn)良好,分詞效率也比較高。但是純粹的展,但是,歧義處理和未登錄詞識(shí)別仍然是中文分機(jī)械分詞并不能解決中文分詞中的兩大難題,歧[1][5-6]詞的

3、兩大難題。傳統(tǒng)的分詞策略首先利用機(jī)義識(shí)別和未登錄詞的識(shí)別。械分詞的方法完成基本的分詞處理,識(shí)別出詞典1.2基于統(tǒng)計(jì)的分詞方法中包含的詞條,再根據(jù)基于統(tǒng)計(jì)的方法解決未被從形式上看,詞是字的穩(wěn)定組合。文本中如識(shí)別出的詞條、包含歧義字段和未登錄詞。事實(shí)果兩個(gè)字或多個(gè)字同時(shí)出現(xiàn)的頻率達(dá)到一定程度證明,只有將機(jī)械分詞和統(tǒng)計(jì)方法結(jié)合起來(lái),才能時(shí),就可以認(rèn)為這種組合是一個(gè)詞。字與字相鄰[2-4]開發(fā)出比較完善的分詞系統(tǒng)。筆者從分詞效出現(xiàn)頻率能夠反映成詞的可信度,這就是基于統(tǒng)率和分詞精度兩方面考慮提出一種詞典與統(tǒng)計(jì)相計(jì)中文分詞方法的核心思想。該方法只需對(duì)語(yǔ)料[7]結(jié)合的中文分詞算法。中的字

4、組合頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典。純粹的基于統(tǒng)計(jì)的分詞是有局限性的,雖然這種1傳統(tǒng)的基于詞典和基于統(tǒng)計(jì)的分詞方法方法在一定程度上解決了歧義和未登錄詞問(wèn)題,1.1基于詞典的分詞方法但該算法經(jīng)常會(huì)抽取出一些組合頻度相當(dāng)大,卻傳統(tǒng)的基于詞典的分詞指的是基于字符串匹又不是詞語(yǔ)的詞條,例如這一!、之一!等。配的方法。按照待分文本的掃描方向和匹配詞條2統(tǒng)計(jì)與詞典相結(jié)合的分詞方法的長(zhǎng)短可將機(jī)械分詞的方法分為4種:正向最大匹配、正向最小匹配、逆向最大匹配和逆向最小匹2.1系統(tǒng)架構(gòu)圖配。無(wú)論是何種匹配算法,其核心思想均是將待筆者所描述的系統(tǒng)是基于統(tǒng)計(jì)和詞典相結(jié)合分析串和詞典中的詞條進(jìn)行

5、匹配,將詞典中存在的一種解決方案。通過(guò)兩種方法的有機(jī)結(jié)合,有的詞條分離出來(lái)?;谧址ヅ涞乃惴ㄒ苑衷~效地彌補(bǔ)了對(duì)方的缺點(diǎn),使系統(tǒng)在分詞精度和效詞典為核心,算法簡(jiǎn)單,容易實(shí)現(xiàn)。由于漢語(yǔ)語(yǔ)率上有比較良好的表現(xiàn)。系統(tǒng)主要架構(gòu)圖如1所[8-10]法、詞法的復(fù)雜性,使得基于字符串匹配的分詞算示。法有先天劣勢(shì),新的詞條不斷出現(xiàn),對(duì)這些詞典中(1)對(duì)待分詞文檔進(jìn)行預(yù)處理,去掉文檔中并不存在的詞條,不能識(shí)別;中文分詞中的另外一的標(biāo)點(diǎn)、英文字母等非漢字信息,用自定義分隔符收稿日期:2010-05-22.作者簡(jiǎn)介:李宏波(1984-),男,天津薊縣人,武漢理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院碩士研究生

6、.908武漢理工大學(xué)學(xué)報(bào)信息與管理工程版2010年12月為臨時(shí)詞典和核心詞典。其中,臨時(shí)詞典并不是分詞的依據(jù),存儲(chǔ)在該詞典中的是一些備選詞匯,這些詞匯中并不是所有的都能夠進(jìn)入核心詞典,只有滿足設(shè)計(jì)要求的詞匯才會(huì)被移動(dòng)到核心詞典。核心詞典是中文分詞的唯一依據(jù),其初始化狀態(tài)包含了法定的常用詞匯,隨著分詞系統(tǒng)的經(jīng)驗(yàn)不斷增加,核心詞典中會(huì)自動(dòng)加入更多的詞匯,以保證分詞的效果是動(dòng)態(tài)的,并且朝著更好的方向發(fā)展。圖1系統(tǒng)架構(gòu)圖根據(jù)對(duì)現(xiàn)代漢語(yǔ)構(gòu)詞特點(diǎn)的統(tǒng)計(jì)發(fā)現(xiàn),單字詞、兩字詞、3字詞、多字詞的概率分別為/!替代之;6.980%、50.034%、20.010%、22.976%??梢?(2)

7、將預(yù)處理的輸出結(jié)果做詞頻統(tǒng)計(jì)處理的兩字詞占半數(shù)以上,又由于哈希查找方法是效率輸入,對(duì)其進(jìn)行詞頻信息統(tǒng)計(jì),并將統(tǒng)計(jì)結(jié)果保存較高的查詢算法。因此,核心詞典采用二級(jí)哈希到臨時(shí)詞典文件中;結(jié)構(gòu)存儲(chǔ),對(duì)詞的前兩個(gè)字建立哈希索引,這樣有(3)對(duì)臨時(shí)詞典中的詞條進(jìn)行判斷,將滿足利于查找效率的提高。核心詞典的數(shù)據(jù)結(jié)構(gòu)如圖條件的詞條移動(dòng)到核心詞典中,并將該詞條信息2所示。從臨時(shí)詞典中刪除;(4)以更新后的核心詞典中的詞條為分詞依據(jù),進(jìn)行逆向最大匹配算法分詞,得到分詞結(jié)果。2.2待分字符串的預(yù)處理由于分詞過(guò)程復(fù)雜,待分字

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。