基于統(tǒng)計(jì)的漢語分詞模型及實(shí)現(xiàn)方法

基于統(tǒng)計(jì)的漢語分詞模型及實(shí)現(xiàn)方法

ID:38204935

大小:29.01 KB

頁數(shù):5頁

時間:2019-06-01

基于統(tǒng)計(jì)的漢語分詞模型及實(shí)現(xiàn)方法_第1頁
基于統(tǒng)計(jì)的漢語分詞模型及實(shí)現(xiàn)方法_第2頁
基于統(tǒng)計(jì)的漢語分詞模型及實(shí)現(xiàn)方法_第3頁
基于統(tǒng)計(jì)的漢語分詞模型及實(shí)現(xiàn)方法_第4頁
基于統(tǒng)計(jì)的漢語分詞模型及實(shí)現(xiàn)方法_第5頁
資源描述:

《基于統(tǒng)計(jì)的漢語分詞模型及實(shí)現(xiàn)方法》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、第18卷第4期         廣西科學(xué)院學(xué)報Vol118,No142002年11月    JournalofGuangxiAcademyofSciencesNovember2002基于統(tǒng)計(jì)的無詞典分詞方法WordExtractionwithoutDictionaryBasedonStatistics 傅賽香         袁鼎榮    黃柏雄   鐘 智FuSaixiangYuanDingrongHuangBoxiongZhongZhi(中國科學(xué)院計(jì)算技術(shù)研究所智能信息(廣西師范大學(xué)計(jì)算機(jī)科學(xué)系處

2、理開放實(shí)驗(yàn)室 北京 100080) 桂林 541004)(TheKeyLaboratoryofIntelligent(DepartmentofComputerScience,InformationProcessing,InstituteofGuangxiNormalUniversity,Guilin,541004)ComputingTechnology,CAS,Beijing,100080)摘要 通過分析詞的結(jié)合模式,提出無詞典分詞模型,并對該模型進(jìn)行實(shí)驗(yàn)測試。測試結(jié)果表明,無詞典分詞模型能夠滿足快速

3、分詞的要求。關(guān)鍵詞 自動分詞 無詞典分詞 詞條過濾 詞條統(tǒng)計(jì)中圖法分類號 TP39111AbstractThemethodforextractingwordswithoutdictionarybasedonstatisticsisdiscussed.Threeprinciplesonwordfilteringareproposedbyanalyzingthecombinationmodelsofwords.Themodelforwordextractionisdeveloped,andmeetther

4、equirementofrapidextractionintheexperiments.Keywordsautomatedwordextraction,wordextractingwithoutdictionary,wordfiltering,wordstatistics  文檔的自動分詞一直是中文信息處理技術(shù)研究的熱點(diǎn)和難點(diǎn)。漢語信息處理系統(tǒng)只要涉及句法、語義(如檢索、翻譯、文摘、校對等應(yīng)用),就需要以詞為基本單位。例如,漢字的拼音一字轉(zhuǎn)換、自然語言理解、機(jī)器翻譯、文本分類、漢語文章的自動朗讀(即語

5、音合成)、文本校對等中文信息處理系統(tǒng)同樣需要分詞作為其最基本的模塊。因?yàn)闈h字字符數(shù)量多,編碼方式復(fù)雜,詞與詞之間卻沒有分隔符,因此,正確地切分詞語,是個很重要的問題。  目前的分詞方法歸納起來有3類:第一類是基于語法和規(guī)則的分詞法。其基本思想就是在分詞的同時進(jìn)行句法、語義分析,利用句法信息和語義信息來進(jìn)行詞性標(biāo)注,以解決分詞歧義現(xiàn)象。因?yàn)楝F(xiàn)有的語法知識、句法規(guī)則十分籠統(tǒng)、復(fù)雜,基于語法和規(guī)則的分詞法所能達(dá)到的精確度遠(yuǎn)遠(yuǎn)還不能令人滿意,目前這種分詞系統(tǒng)還處在試驗(yàn)階段。第二類是機(jī)械式分詞法。機(jī)械分詞的原理

6、是將文檔中的字符串與詞典中的詞條進(jìn)行逐一匹配,如果詞典中找到某個字符串,則匹配成2002206208收稿。?1995-2005TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.第4期             傅賽香等:基于統(tǒng)計(jì)的無詞典分詞方法253功,可以切分,否則不予切分?;谠~典的機(jī)械分詞法,實(shí)現(xiàn)簡單,實(shí)用性強(qiáng),但機(jī)械分詞法的最大的缺點(diǎn)就是詞典的完備性不能得到保證。據(jù)文獻(xiàn)[1]統(tǒng)計(jì),用一個含有70000個詞的詞典去切分含有15000個詞的語料

7、庫,仍然有30%以上的詞條沒有被分出來,也就是說有4500個詞沒有在詞典中登錄。第三類是基于統(tǒng)計(jì)的方法?;诮y(tǒng)計(jì)的分詞法的基本原理是根據(jù)字符串在語料庫中出現(xiàn)的統(tǒng)計(jì)頻率來決定其是否構(gòu)成詞?;诮y(tǒng)計(jì)的分詞方法即是無詞典分詞方法。本文在分析詞的結(jié)合模式的基礎(chǔ)上,提出3個過濾原則對詞條進(jìn)行過濾,建立無詞典分詞模型,并對無詞典分詞模型進(jìn)行實(shí)驗(yàn)測試。1 無詞典分詞模型  詞是字的組合,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映它們成為詞的可信度。111 詞條模式

8、  如果任意2個或2個以上的漢字組成的連續(xù)字符串稱為漢字的結(jié)合模式,那么,詞就可以看成是漢語中字與字的一種結(jié)合模式。當(dāng)然,并不是每一個漢字結(jié)合模式都能構(gòu)成一個詞,它必須滿足一定語法規(guī)則并且具有確定的語義才能稱為詞。  將詞條分為3種模式:統(tǒng)計(jì)模式、詞法模式、語境模式?! 《x1 統(tǒng)計(jì)模式定義為一個在文檔中出現(xiàn)具有一定的頻度的連續(xù)的字符串?! ”热?從“元搜索引擎”中抽出的“元搜”、“搜索”、“索引”、“引擎”、及“元搜索”、“搜索引”、“索引擎”、及“元

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。