畢業(yè)論文--中文自動(dòng)分詞算法綜述

畢業(yè)論文--中文自動(dòng)分詞算法綜述

ID:35594731

大?。?14.50 KB

頁數(shù):26頁

時(shí)間:2019-03-30

畢業(yè)論文--中文自動(dòng)分詞算法綜述_第1頁
畢業(yè)論文--中文自動(dòng)分詞算法綜述_第2頁
畢業(yè)論文--中文自動(dòng)分詞算法綜述_第3頁
畢業(yè)論文--中文自動(dòng)分詞算法綜述_第4頁
畢業(yè)論文--中文自動(dòng)分詞算法綜述_第5頁
資源描述:

《畢業(yè)論文--中文自動(dòng)分詞算法綜述》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、中文自動(dòng)分詞算法綜述內(nèi)容摘要本篇文章首先介紹了分詞在信息檢索、自動(dòng)標(biāo)引、自動(dòng)文摘、機(jī)器翻譯、語言學(xué)研究、搜索引擎研究和自然語言理解等方面的應(yīng)用以及現(xiàn)有的分詞系統(tǒng);接著介紹分詞的基本知識(shí),并提出分詞規(guī)范的問題,進(jìn)而引出分詞的困難:歧義識(shí)別,未登錄詞識(shí)別,分詞與理解的先后。第三章給出三種基本分詞方法:基于字符串匹配、基于理解和基于統(tǒng)計(jì)的分詞方法。特別地給出三種分詞算法:最大匹配算法,最少切分算法,基于統(tǒng)計(jì)語言模型的分詞算法。并分析三種算法的優(yōu)缺點(diǎn),指出現(xiàn)有分詞算法的局限性。最后從分詞算法的特點(diǎn)和輸入習(xí)慣的角度提出一些新的想法,并對分詞算法的發(fā)展趨勢做出預(yù)測。關(guān)鍵字

2、:分詞匹配統(tǒng)計(jì)理解22AutomaticsegmentationforChinese:thesurveyAbstractThispaperfirstintroducedthesegmentationintheinformationinspectional,automaticmark,automaticselectedessays,machinetranslation,thelinguisticsstudy,searchfortheenginestudytocomprehendwithnaturallanguagetowaittheapplicationandc

3、urrentsegmentationsystemoftheaspect;Immediatelyafterintroducethesegmentation’sbasicknowledge,andbringuptheproblemofthesegmentation,andenterbutthedifficultyofthesegmentation:Theambiguityidentifies,andunlistedwordsidentify,segmentationandcomprehendsuccessively.Chapter3givestooutthreeb

4、asicparticiplemethods:Baseonstringsmatching,statisticsandcomprehending.Andanalyzethegoodnessandweaknessofthreekindsofcalculateways,pointoutthelocalizationofthecurrentparticiplecalculateway.AutomaticChinesewordsegmentationisabasicresearchissueonChineseinformationprocessingtaskssuchas

5、informationextraction,informationretrieval,machinetranslation,textclassification,automatictextsummarization,speechrecognition,text—to—speech,naturallanguageunderstandingandsoon.KeyWords:Segmentationmatchstatisticscomprehend22目錄緒論1(一)引言1(二)漢語的特點(diǎn)1(三)中文分詞的定義、意義和現(xiàn)狀21.中文分詞的定義22.中文分詞的意義23

6、.中文自動(dòng)分詞現(xiàn)狀24.幾個(gè)早期的自動(dòng)分詞系統(tǒng)3(四)自動(dòng)分詞系統(tǒng)的性能指標(biāo)4(五)問題的提出5一、中文分詞中的難題6(一)歧義識(shí)別6(二)新詞6(三)現(xiàn)有研究成果61.歧義的消除72.未登陸詞的識(shí)別7二、現(xiàn)有分詞方法分析9(一)現(xiàn)有分詞方法介紹91.現(xiàn)有主要的分詞方法92.分詞算法的基本思想9(二)分詞方法的比較101.機(jī)械匹配算法102.統(tǒng)計(jì)語言算法103.人工智能算法10(三)現(xiàn)有的分詞方法的局限性11三、最大匹配算法的研究12(一)最大匹配算法設(shè)計(jì)12(二)最大匹配算法的不足1522(三)對最大匹配算法的改進(jìn)15四、分詞系統(tǒng)的發(fā)展前景17(一)漢語自動(dòng)

7、分詞系統(tǒng)的發(fā)展前景17(二)分詞算法的發(fā)展趨勢171.傳統(tǒng)漢語書面文本的有效切分172.計(jì)算機(jī)信息處理技術(shù)的快速發(fā)展183.書面漢語書寫規(guī)則的改造與規(guī)范18五、設(shè)計(jì)心得20參考文獻(xiàn)2122緒論(一)引言目前,國內(nèi)的每個(gè)行業(yè)、領(lǐng)域都在飛速發(fā)展,這中間產(chǎn)生了大量的中文信息資源,漢語信息處理就顯得極為重要。漢語信息處理可分為字處理階段、詞處理階段、語句處理階段、篇章處理階段。就整體水平而言,我國的漢字信息處理水平正處于從字處理向語句處理的過度階段,單純解決字處理問題已經(jīng)不能滿足漢語信息處理的發(fā)展需求。我們說當(dāng)前正在解決詞處理階段問題,并不是不能或沒有人探索語句處理乃

8、至篇章處理,但詞處理這個(gè)基礎(chǔ)是不能超越

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。