資源描述:
《基于統(tǒng)計(jì)的漢語分詞模型及實(shí)現(xiàn)方法》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、第18卷第4期 廣西科學(xué)院學(xué)報Vol118,No142002年11月 JournalofGuangxiAcademyofSciencesNovember2002基于統(tǒng)計(jì)的無詞典分詞方法WordExtractionwithoutDictionaryBasedonStatistics 傅賽香 袁鼎榮 黃柏雄 鐘 智FuSaixiangYuanDingrongHuangBoxiongZhongZhi(中國科學(xué)院計(jì)算技術(shù)研究所智能信息(廣西師范大學(xué)計(jì)算機(jī)科學(xué)系處
2、理開放實(shí)驗(yàn)室 北京 100080) 桂林 541004)(TheKeyLaboratoryofIntelligent(DepartmentofComputerScience,InformationProcessing,InstituteofGuangxiNormalUniversity,Guilin,541004)ComputingTechnology,CAS,Beijing,100080)摘要 通過分析詞的結(jié)合模式,提出無詞典分詞模型,并對該模型進(jìn)行實(shí)驗(yàn)測試。測試結(jié)果表明,無詞典分詞模型能夠滿足快速
3、分詞的要求。關(guān)鍵詞 自動分詞 無詞典分詞 詞條過濾 詞條統(tǒng)計(jì)中圖法分類號 TP39111AbstractThemethodforextractingwordswithoutdictionarybasedonstatisticsisdiscussed.Threeprinciplesonwordfilteringareproposedbyanalyzingthecombinationmodelsofwords.Themodelforwordextractionisdeveloped,andmeetther
4、equirementofrapidextractionintheexperiments.Keywordsautomatedwordextraction,wordextractingwithoutdictionary,wordfiltering,wordstatistics 文檔的自動分詞一直是中文信息處理技術(shù)研究的熱點(diǎn)和難點(diǎn)。漢語信息處理系統(tǒng)只要涉及句法、語義(如檢索、翻譯、文摘、校對等應(yīng)用),就需要以詞為基本單位。例如,漢字的拼音一字轉(zhuǎn)換、自然語言理解、機(jī)器翻譯、文本分類、漢語文章的自動朗讀(即語
5、音合成)、文本校對等中文信息處理系統(tǒng)同樣需要分詞作為其最基本的模塊。因?yàn)闈h字字符數(shù)量多,編碼方式復(fù)雜,詞與詞之間卻沒有分隔符,因此,正確地切分詞語,是個很重要的問題。 目前的分詞方法歸納起來有3類:第一類是基于語法和規(guī)則的分詞法。其基本思想就是在分詞的同時進(jìn)行句法、語義分析,利用句法信息和語義信息來進(jìn)行詞性標(biāo)注,以解決分詞歧義現(xiàn)象。因?yàn)楝F(xiàn)有的語法知識、句法規(guī)則十分籠統(tǒng)、復(fù)雜,基于語法和規(guī)則的分詞法所能達(dá)到的精確度遠(yuǎn)遠(yuǎn)還不能令人滿意,目前這種分詞系統(tǒng)還處在試驗(yàn)階段。第二類是機(jī)械式分詞法。機(jī)械分詞的原理
6、是將文檔中的字符串與詞典中的詞條進(jìn)行逐一匹配,如果詞典中找到某個字符串,則匹配成2002206208收稿。?1995-2005TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.第4期 傅賽香等:基于統(tǒng)計(jì)的無詞典分詞方法253功,可以切分,否則不予切分?;谠~典的機(jī)械分詞法,實(shí)現(xiàn)簡單,實(shí)用性強(qiáng),但機(jī)械分詞法的最大的缺點(diǎn)就是詞典的完備性不能得到保證。據(jù)文獻(xiàn)[1]統(tǒng)計(jì),用一個含有70000個詞的詞典去切分含有15000個詞的語料
7、庫,仍然有30%以上的詞條沒有被分出來,也就是說有4500個詞沒有在詞典中登錄。第三類是基于統(tǒng)計(jì)的方法?;诮y(tǒng)計(jì)的分詞法的基本原理是根據(jù)字符串在語料庫中出現(xiàn)的統(tǒng)計(jì)頻率來決定其是否構(gòu)成詞?;诮y(tǒng)計(jì)的分詞方法即是無詞典分詞方法。本文在分析詞的結(jié)合模式的基礎(chǔ)上,提出3個過濾原則對詞條進(jìn)行過濾,建立無詞典分詞模型,并對無詞典分詞模型進(jìn)行實(shí)驗(yàn)測試。1 無詞典分詞模型 詞是字的組合,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映它們成為詞的可信度。111 詞條模式
8、 如果任意2個或2個以上的漢字組成的連續(xù)字符串稱為漢字的結(jié)合模式,那么,詞就可以看成是漢語中字與字的一種結(jié)合模式。當(dāng)然,并不是每一個漢字結(jié)合模式都能構(gòu)成一個詞,它必須滿足一定語法規(guī)則并且具有確定的語義才能稱為詞。 將詞條分為3種模式:統(tǒng)計(jì)模式、詞法模式、語境模式?! 《x1 統(tǒng)計(jì)模式定義為一個在文檔中出現(xiàn)具有一定的頻度的連續(xù)的字符串?! ”热?從“元搜索引擎”中抽出的“元搜”、“搜索”、“索引”、“引擎”、及“元搜索”、“搜索引”、“索引擎”、及“元