_圖書情報(bào)工作_國內(nèi)中文自動分詞技術(shù)研究綜述

_圖書情報(bào)工作_國內(nèi)中文自動分詞技術(shù)研究綜述

ID:26615079

大?。?06.50 KB

頁數(shù):6頁

時間:2018-11-28

_圖書情報(bào)工作_國內(nèi)中文自動分詞技術(shù)研究綜述_第1頁
_圖書情報(bào)工作_國內(nèi)中文自動分詞技術(shù)研究綜述_第2頁
_圖書情報(bào)工作_國內(nèi)中文自動分詞技術(shù)研究綜述_第3頁
_圖書情報(bào)工作_國內(nèi)中文自動分詞技術(shù)研究綜述_第4頁
_圖書情報(bào)工作_國內(nèi)中文自動分詞技術(shù)研究綜述_第5頁
資源描述:

《_圖書情報(bào)工作_國內(nèi)中文自動分詞技術(shù)研究綜述》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、國內(nèi)中文自動分詞技術(shù)研究綜述*國家社科基金項(xiàng)目:自動文本分類技術(shù)研究(編號:08CTQ003)。奉國和1鄭偉21華南師范大學(xué)經(jīng)濟(jì)管理學(xué)院,廣州5100062河北北方學(xué)院理學(xué)院,張家口075000〔摘要〕分詞是文本自動分類、信息檢索、信息過濾、文獻(xiàn)自動標(biāo)引、摘要自動生成等中文信息處理的基礎(chǔ)與關(guān)鍵技術(shù)之一,中文本身復(fù)雜性及語言規(guī)則的不確定性,使中文分詞技術(shù)成為了分詞技術(shù)中的難點(diǎn)。論文全面歸納中文分詞算法、歧義消除、未登錄詞識別、自動分詞系統(tǒng)等研究,總結(jié)出當(dāng)前中文分詞面臨的難點(diǎn)與研究熱點(diǎn)?!碴P(guān)鍵詞〕中文分詞分詞算法歧義消除未登錄詞分詞系統(tǒng)〔分類號〕

2、G354ReviewofChineseAutomaticWordSegmentationFengGuohe1ZhenWei21SchoolofEconomics&Management,SouthChinaNormalUniversity,Guangzhou5100062CollegeofScience,HebeiNorthUniversity,Zhangjiakou075000[Abstract]Wordsegmentationisoneofthekeytechnologyfornaturallanguageprocessingsuchast

3、extauto-classification,informationretrieval,informationfiltration,documentauto-index,summarizationauto-generationetc.,Chinesewordsegmentationisdifficultprobleminwordsegmentationbecauseofit’scomplexityanduncertainlanguagerulesinnature.Thispapersumsuptheresearchcomprehensivel

4、yofChinesewordsegmentationalgorithm,disambiguationmethod,unknownwordrecognition,auto-segmentaionsystemsetc.andsummarizesChinesewordsegmentation’sresearchdifficultpointsandhotpointstoday.[Keywords]ChineseWordSegmentationWordSegmentationAlgorithmDisambiguationMethodUnknownWor

5、dRecognitionWordSegmentationSystem中文分詞是文本分類、信息檢索、信息過濾、文獻(xiàn)自動標(biāo)引、摘要自動生成等中文信息處理關(guān)鍵技術(shù)及難點(diǎn)。經(jīng)過廣大學(xué)者共同努力,過去20多年中文分詞取得可喜進(jìn)步,黃昌寧、趙海[1]在四方面總結(jié)了取得的成績。筆者利用CNKI全文期刊數(shù)據(jù)庫,以“中文and分詞”、“漢語and分詞”、“自動and分詞”等為檢索條件,檢索時段為1987年-2010年9月11日,進(jìn)行篇名檢索,經(jīng)篩選分別得到相關(guān)研究論文214、191、165篇,通過文獻(xiàn)歸納總結(jié)出該領(lǐng)域研究現(xiàn)狀、研究內(nèi)容、研究熱點(diǎn)與難點(diǎn),并展望其

6、發(fā)展。1中文分詞基礎(chǔ)理論研究中文分詞理論研究可歸結(jié)為:三種主要分詞算法及組合算法研究、中文分詞歧義消除、未登錄詞識別與分詞與詞性標(biāo)注評測研究。1.1分詞算法研究衡量分詞算法優(yōu)劣標(biāo)準(zhǔn)是分詞速度與精度,各種算法圍繞精度與速度展開。目前分詞算法很多,大致可歸納為:字符串匹配方法、理解分詞方法、統(tǒng)計(jì)分詞方法、組合分詞算法。1.1.1詞典分詞方法·算法詞典分詞方法按照一定策略將待分析漢字串與詞典中的詞條進(jìn)行匹配,若在詞典中找到某個字符串,則匹配成功,該方法需要確定三個要素:詞典、掃描方向、匹配原則。比較成熟的幾種詞典分詞方法有:正向最大匹配法、逆向最大

7、匹配法、雙向最大匹配法、最少切分等。實(shí)際分詞系統(tǒng),都是把詞典分詞作為一種初分手段,再通過各種其它的語言信息進(jìn)一步提高切分的準(zhǔn)確率。詞典分詞方法包含兩個核心內(nèi)容:分詞算法與詞典結(jié)構(gòu),算法設(shè)計(jì)可從以下幾方面展開:①字典結(jié)構(gòu)改進(jìn);②改進(jìn)掃描方式;6③將詞典中的詞按由長到短遞減順序逐字搜索整個待處理材料,一直到分出全部詞為止?!ぴ~典結(jié)構(gòu)詞典結(jié)構(gòu)是詞典分詞算法關(guān)鍵技術(shù),直接影響分詞算法的性能。三個因素影響詞典性能[2]:①詞查詢速度;②詞典空間利用率;③詞典維護(hù)性能。Hash表是設(shè)計(jì)詞典結(jié)構(gòu)常用方式,先對GB2312-1980中的漢字排序(即建立Has

8、h表),然后將其后繼詞(包括詞的屬性等信息)放在相應(yīng)的詞庫表中。孫茂松等[3]設(shè)計(jì)并實(shí)驗(yàn)考察了三種典型的分詞詞典機(jī)制:整詞二分、TRIE索引樹及逐字二分,著重比較它

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。