_圖書情報(bào)工作_國內(nèi)中文自動分詞技術(shù)研究綜述

ID：26615079

大?。?06.50 KB

頁數(shù)：6頁

時間：2018-11-28

_圖書情報(bào)工作_國內(nèi)中文自動分詞技術(shù)研究綜述_第1頁

_圖書情報(bào)工作_國內(nèi)中文自動分詞技術(shù)研究綜述_第2頁

_圖書情報(bào)工作_國內(nèi)中文自動分詞技術(shù)研究綜述_第3頁

_圖書情報(bào)工作_國內(nèi)中文自動分詞技術(shù)研究綜述_第4頁

_圖書情報(bào)工作_國內(nèi)中文自動分詞技術(shù)研究綜述_第5頁

資源描述：

《_圖書情報(bào)工作_國內(nèi)中文自動分詞技術(shù)研究綜述》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、國內(nèi)中文自動分詞技術(shù)研究綜述*國家社科基金項(xiàng)目：自動文本分類技術(shù)研究（編號：08CTQ003）。奉國和1鄭偉21華南師范大學(xué)經(jīng)濟(jì)管理學(xué)院，廣州5100062河北北方學(xué)院理學(xué)院，張家口075000〔摘要〕分詞是文本自動分類、信息檢索、信息過濾、文獻(xiàn)自動標(biāo)引、摘要自動生成等中文信息處理的基礎(chǔ)與關(guān)鍵技術(shù)之一，中文本身復(fù)雜性及語言規(guī)則的不確定性，使中文分詞技術(shù)成為了分詞技術(shù)中的難點(diǎn)。論文全面歸納中文分詞算法、歧義消除、未登錄詞識別、自動分詞系統(tǒng)等研究，總結(jié)出當(dāng)前中文分詞面臨的難點(diǎn)與研究熱點(diǎn)?！碴P(guān)鍵詞〕中文分詞分詞算法歧義消除未登錄詞分詞系統(tǒng)〔分類號〕

2、G354ReviewofChineseAutomaticWordSegmentationFengGuohe1ZhenWei21SchoolofEconomics&Management,SouthChinaNormalUniversity,Guangzhou5100062CollegeofScience,HebeiNorthUniversity,Zhangjiakou075000[Abstract]Wordsegmentationisoneofthekeytechnologyfornaturallanguageprocessingsuchast

3、extauto-classification,informationretrieval,informationfiltration,documentauto-index,summarizationauto-generationetc.,Chinesewordsegmentationisdifficultprobleminwordsegmentationbecauseofit’scomplexityanduncertainlanguagerulesinnature.Thispapersumsuptheresearchcomprehensivel

4、yofChinesewordsegmentationalgorithm,disambiguationmethod,unknownwordrecognition,auto-segmentaionsystemsetc.andsummarizesChinesewordsegmentation’sresearchdifficultpointsandhotpointstoday.[Keywords]ChineseWordSegmentationWordSegmentationAlgorithmDisambiguationMethodUnknownWor

5、dRecognitionWordSegmentationSystem中文分詞是文本分類、信息檢索、信息過濾、文獻(xiàn)自動標(biāo)引、摘要自動生成等中文信息處理關(guān)鍵技術(shù)及難點(diǎn)。經(jīng)過廣大學(xué)者共同努力，過去20多年中文分詞取得可喜進(jìn)步，黃昌寧、趙海[1]在四方面總結(jié)了取得的成績。筆者利用CNKI全文期刊數(shù)據(jù)庫，以“中文and分詞”、“漢語and分詞”、“自動and分詞”等為檢索條件，檢索時段為1987年-2010年9月11日，進(jìn)行篇名檢索，經(jīng)篩選分別得到相關(guān)研究論文214、191、165篇，通過文獻(xiàn)歸納總結(jié)出該領(lǐng)域研究現(xiàn)狀、研究內(nèi)容、研究熱點(diǎn)與難點(diǎn)，并展望其

6、發(fā)展。1中文分詞基礎(chǔ)理論研究中文分詞理論研究可歸結(jié)為：三種主要分詞算法及組合算法研究、中文分詞歧義消除、未登錄詞識別與分詞與詞性標(biāo)注評測研究。1.1分詞算法研究衡量分詞算法優(yōu)劣標(biāo)準(zhǔn)是分詞速度與精度，各種算法圍繞精度與速度展開。目前分詞算法很多，大致可歸納為：字符串匹配方法、理解分詞方法、統(tǒng)計(jì)分詞方法、組合分詞算法。1.1.1詞典分詞方法·算法詞典分詞方法按照一定策略將待分析漢字串與詞典中的詞條進(jìn)行匹配，若在詞典中找到某個字符串，則匹配成功，該方法需要確定三個要素：詞典、掃描方向、匹配原則。比較成熟的幾種詞典分詞方法有：正向最大匹配法、逆向最大

7、匹配法、雙向最大匹配法、最少切分等。實(shí)際分詞系統(tǒng)，都是把詞典分詞作為一種初分手段，再通過各種其它的語言信息進(jìn)一步提高切分的準(zhǔn)確率。詞典分詞方法包含兩個核心內(nèi)容：分詞算法與詞典結(jié)構(gòu)，算法設(shè)計(jì)可從以下幾方面展開：①字典結(jié)構(gòu)改進(jìn)；②改進(jìn)掃描方式；6③將詞典中的詞按由長到短遞減順序逐字搜索整個待處理材料，一直到分出全部詞為止?！ぴ~典結(jié)構(gòu)詞典結(jié)構(gòu)是詞典分詞算法關(guān)鍵技術(shù)，直接影響分詞算法的性能。三個因素影響詞典性能[2]：①詞查詢速度；②詞典空間利用率；③詞典維護(hù)性能。Hash表是設(shè)計(jì)詞典結(jié)構(gòu)常用方式，先對GB2312-1980中的漢字排序（即建立Has

8、h表），然后將其后繼詞（包括詞的屬性等信息）放在相應(yīng)的詞庫表中。孫茂松等[3]設(shè)計(jì)并實(shí)驗(yàn)考察了三種典型的分詞詞典機(jī)制：整詞二分、TRIE索引樹及逐字二分，著重比較它

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 6



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

_圖書情報(bào)工作_國內(nèi)中文自動分詞技術(shù)研究綜述

_圖書情報(bào)工作_國內(nèi)中文自動分詞技術(shù)研究綜述

相關(guān)文章

相關(guān)標(biāo)簽