資源描述:
《畢業(yè)論文--中文自動(dòng)分詞算法綜述》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、中文自動(dòng)分詞算法綜述內(nèi)容摘要本篇文章首先介紹了分詞在信息檢索、自動(dòng)標(biāo)引、自動(dòng)文摘、機(jī)器翻譯、語言學(xué)研究、搜索引擎研究和自然語言理解等方面的應(yīng)用以及現(xiàn)有的分詞系統(tǒng);接著介紹分詞的基本知識(shí),并提出分詞規(guī)范的問題,進(jìn)而引出分詞的困難:歧義識(shí)別,未登錄詞識(shí)別,分詞與理解的先后。第三章給出三種基本分詞方法:基于字符串匹配、基于理解和基于統(tǒng)計(jì)的分詞方法。特別地給出三種分詞算法:最大匹配算法,最少切分算法,基于統(tǒng)計(jì)語言模型的分詞算法。并分析三種算法的優(yōu)缺點(diǎn),指出現(xiàn)有分詞算法的局限性。最后從分詞算法的特點(diǎn)和輸入習(xí)慣的角度提出一些新的想法,并對分詞算法的發(fā)展趨勢做出預(yù)測。關(guān)鍵字
2、:分詞匹配統(tǒng)計(jì)理解22AutomaticsegmentationforChinese:thesurveyAbstractThispaperfirstintroducedthesegmentationintheinformationinspectional,automaticmark,automaticselectedessays,machinetranslation,thelinguisticsstudy,searchfortheenginestudytocomprehendwithnaturallanguagetowaittheapplicationandc
3、urrentsegmentationsystemoftheaspect;Immediatelyafterintroducethesegmentation’sbasicknowledge,andbringuptheproblemofthesegmentation,andenterbutthedifficultyofthesegmentation:Theambiguityidentifies,andunlistedwordsidentify,segmentationandcomprehendsuccessively.Chapter3givestooutthreeb
4、asicparticiplemethods:Baseonstringsmatching,statisticsandcomprehending.Andanalyzethegoodnessandweaknessofthreekindsofcalculateways,pointoutthelocalizationofthecurrentparticiplecalculateway.AutomaticChinesewordsegmentationisabasicresearchissueonChineseinformationprocessingtaskssuchas
5、informationextraction,informationretrieval,machinetranslation,textclassification,automatictextsummarization,speechrecognition,text—to—speech,naturallanguageunderstandingandsoon.KeyWords:Segmentationmatchstatisticscomprehend22目錄緒論1(一)引言1(二)漢語的特點(diǎn)1(三)中文分詞的定義、意義和現(xiàn)狀21.中文分詞的定義22.中文分詞的意義23
6、.中文自動(dòng)分詞現(xiàn)狀24.幾個(gè)早期的自動(dòng)分詞系統(tǒng)3(四)自動(dòng)分詞系統(tǒng)的性能指標(biāo)4(五)問題的提出5一、中文分詞中的難題6(一)歧義識(shí)別6(二)新詞6(三)現(xiàn)有研究成果61.歧義的消除72.未登陸詞的識(shí)別7二、現(xiàn)有分詞方法分析9(一)現(xiàn)有分詞方法介紹91.現(xiàn)有主要的分詞方法92.分詞算法的基本思想9(二)分詞方法的比較101.機(jī)械匹配算法102.統(tǒng)計(jì)語言算法103.人工智能算法10(三)現(xiàn)有的分詞方法的局限性11三、最大匹配算法的研究12(一)最大匹配算法設(shè)計(jì)12(二)最大匹配算法的不足1522(三)對最大匹配算法的改進(jìn)15四、分詞系統(tǒng)的發(fā)展前景17(一)漢語自動(dòng)
7、分詞系統(tǒng)的發(fā)展前景17(二)分詞算法的發(fā)展趨勢171.傳統(tǒng)漢語書面文本的有效切分172.計(jì)算機(jī)信息處理技術(shù)的快速發(fā)展183.書面漢語書寫規(guī)則的改造與規(guī)范18五、設(shè)計(jì)心得20參考文獻(xiàn)2122緒論(一)引言目前,國內(nèi)的每個(gè)行業(yè)、領(lǐng)域都在飛速發(fā)展,這中間產(chǎn)生了大量的中文信息資源,漢語信息處理就顯得極為重要。漢語信息處理可分為字處理階段、詞處理階段、語句處理階段、篇章處理階段。就整體水平而言,我國的漢字信息處理水平正處于從字處理向語句處理的過度階段,單純解決字處理問題已經(jīng)不能滿足漢語信息處理的發(fā)展需求。我們說當(dāng)前正在解決詞處理階段問題,并不是不能或沒有人探索語句處理乃
8、至篇章處理,但詞處理這個(gè)基礎(chǔ)是不能超越