基于統(tǒng)計(jì)的漢語(yǔ)分詞模型及實(shí)現(xiàn)方法

基于統(tǒng)計(jì)的漢語(yǔ)分詞模型及實(shí)現(xiàn)方法

ID:38204935

大小:29.01 KB

頁(yè)數(shù):5頁(yè)

時(shí)間:2019-06-01

基于統(tǒng)計(jì)的漢語(yǔ)分詞模型及實(shí)現(xiàn)方法_第1頁(yè)
基于統(tǒng)計(jì)的漢語(yǔ)分詞模型及實(shí)現(xiàn)方法_第2頁(yè)
基于統(tǒng)計(jì)的漢語(yǔ)分詞模型及實(shí)現(xiàn)方法_第3頁(yè)
基于統(tǒng)計(jì)的漢語(yǔ)分詞模型及實(shí)現(xiàn)方法_第4頁(yè)
基于統(tǒng)計(jì)的漢語(yǔ)分詞模型及實(shí)現(xiàn)方法_第5頁(yè)
資源描述:

《基于統(tǒng)計(jì)的漢語(yǔ)分詞模型及實(shí)現(xiàn)方法》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、第18卷第4期         廣西科學(xué)院學(xué)報(bào)Vol118,No142002年11月    JournalofGuangxiAcademyofSciencesNovember2002基于統(tǒng)計(jì)的無(wú)詞典分詞方法WordExtractionwithoutDictionaryBasedonStatistics 傅賽香         袁鼎榮    黃柏雄   鐘 智FuSaixiangYuanDingrongHuangBoxiongZhongZhi(中國(guó)科學(xué)院計(jì)算技術(shù)研究所智能信息(廣西師范大學(xué)計(jì)算機(jī)科學(xué)系處

2、理開(kāi)放實(shí)驗(yàn)室 北京 100080) 桂林 541004)(TheKeyLaboratoryofIntelligent(DepartmentofComputerScience,InformationProcessing,InstituteofGuangxiNormalUniversity,Guilin,541004)ComputingTechnology,CAS,Beijing,100080)摘要 通過(guò)分析詞的結(jié)合模式,提出無(wú)詞典分詞模型,并對(duì)該模型進(jìn)行實(shí)驗(yàn)測(cè)試。測(cè)試結(jié)果表明,無(wú)詞典分詞模型能夠滿(mǎn)足快速

3、分詞的要求。關(guān)鍵詞 自動(dòng)分詞 無(wú)詞典分詞 詞條過(guò)濾 詞條統(tǒng)計(jì)中圖法分類(lèi)號(hào) TP39111AbstractThemethodforextractingwordswithoutdictionarybasedonstatisticsisdiscussed.Threeprinciplesonwordfilteringareproposedbyanalyzingthecombinationmodelsofwords.Themodelforwordextractionisdeveloped,andmeetther

4、equirementofrapidextractionintheexperiments.Keywordsautomatedwordextraction,wordextractingwithoutdictionary,wordfiltering,wordstatistics  文檔的自動(dòng)分詞一直是中文信息處理技術(shù)研究的熱點(diǎn)和難點(diǎn)。漢語(yǔ)信息處理系統(tǒng)只要涉及句法、語(yǔ)義(如檢索、翻譯、文摘、校對(duì)等應(yīng)用),就需要以詞為基本單位。例如,漢字的拼音一字轉(zhuǎn)換、自然語(yǔ)言理解、機(jī)器翻譯、文本分類(lèi)、漢語(yǔ)文章的自動(dòng)朗讀(即語(yǔ)

5、音合成)、文本校對(duì)等中文信息處理系統(tǒng)同樣需要分詞作為其最基本的模塊。因?yàn)闈h字字符數(shù)量多,編碼方式復(fù)雜,詞與詞之間卻沒(méi)有分隔符,因此,正確地切分詞語(yǔ),是個(gè)很重要的問(wèn)題?! ∧壳暗姆衷~方法歸納起來(lái)有3類(lèi):第一類(lèi)是基于語(yǔ)法和規(guī)則的分詞法。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來(lái)進(jìn)行詞性標(biāo)注,以解決分詞歧義現(xiàn)象。因?yàn)楝F(xiàn)有的語(yǔ)法知識(shí)、句法規(guī)則十分籠統(tǒng)、復(fù)雜,基于語(yǔ)法和規(guī)則的分詞法所能達(dá)到的精確度遠(yuǎn)遠(yuǎn)還不能令人滿(mǎn)意,目前這種分詞系統(tǒng)還處在試驗(yàn)階段。第二類(lèi)是機(jī)械式分詞法。機(jī)械分詞的原理

6、是將文檔中的字符串與詞典中的詞條進(jìn)行逐一匹配,如果詞典中找到某個(gè)字符串,則匹配成2002206208收稿。?1995-2005TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.第4期             傅賽香等:基于統(tǒng)計(jì)的無(wú)詞典分詞方法253功,可以切分,否則不予切分?;谠~典的機(jī)械分詞法,實(shí)現(xiàn)簡(jiǎn)單,實(shí)用性強(qiáng),但機(jī)械分詞法的最大的缺點(diǎn)就是詞典的完備性不能得到保證。據(jù)文獻(xiàn)[1]統(tǒng)計(jì),用一個(gè)含有70000個(gè)詞的詞典去切分含有15000個(gè)詞的語(yǔ)料

7、庫(kù),仍然有30%以上的詞條沒(méi)有被分出來(lái),也就是說(shuō)有4500個(gè)詞沒(méi)有在詞典中登錄。第三類(lèi)是基于統(tǒng)計(jì)的方法。基于統(tǒng)計(jì)的分詞法的基本原理是根據(jù)字符串在語(yǔ)料庫(kù)中出現(xiàn)的統(tǒng)計(jì)頻率來(lái)決定其是否構(gòu)成詞?;诮y(tǒng)計(jì)的分詞方法即是無(wú)詞典分詞方法。本文在分析詞的結(jié)合模式的基礎(chǔ)上,提出3個(gè)過(guò)濾原則對(duì)詞條進(jìn)行過(guò)濾,建立無(wú)詞典分詞模型,并對(duì)無(wú)詞典分詞模型進(jìn)行實(shí)驗(yàn)測(cè)試。1 無(wú)詞典分詞模型  詞是字的組合,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映它們成為詞的可信度。111 詞條模式

8、  如果任意2個(gè)或2個(gè)以上的漢字組成的連續(xù)字符串稱(chēng)為漢字的結(jié)合模式,那么,詞就可以看成是漢語(yǔ)中字與字的一種結(jié)合模式。當(dāng)然,并不是每一個(gè)漢字結(jié)合模式都能構(gòu)成一個(gè)詞,它必須滿(mǎn)足一定語(yǔ)法規(guī)則并且具有確定的語(yǔ)義才能稱(chēng)為詞。  將詞條分為3種模式:統(tǒng)計(jì)模式、詞法模式、語(yǔ)境模式?! 《x1 統(tǒng)計(jì)模式定義為一個(gè)在文檔中出現(xiàn)具有一定的頻度的連續(xù)的字符串?! ”热?從“元搜索引擎”中抽出的“元搜”、“搜索”、“索引”、“引擎”、及“元搜索”、“搜索引”、“索引擎”、及“元

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳,版權(quán)歸屬用戶(hù),天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。