資源描述:
《基于統(tǒng)計(jì)的漢語(yǔ)分詞模型及實(shí)現(xiàn)方法》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、第18卷第4期 廣西科學(xué)院學(xué)報(bào)Vol118,No142002年11月 JournalofGuangxiAcademyofSciencesNovember2002基于統(tǒng)計(jì)的無(wú)詞典分詞方法WordExtractionwithoutDictionaryBasedonStatistics 傅賽香 袁鼎榮 黃柏雄 鐘 智FuSaixiangYuanDingrongHuangBoxiongZhongZhi(中國(guó)科學(xué)院計(jì)算技術(shù)研究所智能信息(廣西師范大學(xué)計(jì)算機(jī)科學(xué)系處
2、理開(kāi)放實(shí)驗(yàn)室 北京 100080) 桂林 541004)(TheKeyLaboratoryofIntelligent(DepartmentofComputerScience,InformationProcessing,InstituteofGuangxiNormalUniversity,Guilin,541004)ComputingTechnology,CAS,Beijing,100080)摘要 通過(guò)分析詞的結(jié)合模式,提出無(wú)詞典分詞模型,并對(duì)該模型進(jìn)行實(shí)驗(yàn)測(cè)試。測(cè)試結(jié)果表明,無(wú)詞典分詞模型能夠滿(mǎn)足快速
3、分詞的要求。關(guān)鍵詞 自動(dòng)分詞 無(wú)詞典分詞 詞條過(guò)濾 詞條統(tǒng)計(jì)中圖法分類(lèi)號(hào) TP39111AbstractThemethodforextractingwordswithoutdictionarybasedonstatisticsisdiscussed.Threeprinciplesonwordfilteringareproposedbyanalyzingthecombinationmodelsofwords.Themodelforwordextractionisdeveloped,andmeetther
4、equirementofrapidextractionintheexperiments.Keywordsautomatedwordextraction,wordextractingwithoutdictionary,wordfiltering,wordstatistics 文檔的自動(dòng)分詞一直是中文信息處理技術(shù)研究的熱點(diǎn)和難點(diǎn)。漢語(yǔ)信息處理系統(tǒng)只要涉及句法、語(yǔ)義(如檢索、翻譯、文摘、校對(duì)等應(yīng)用),就需要以詞為基本單位。例如,漢字的拼音一字轉(zhuǎn)換、自然語(yǔ)言理解、機(jī)器翻譯、文本分類(lèi)、漢語(yǔ)文章的自動(dòng)朗讀(即語(yǔ)
5、音合成)、文本校對(duì)等中文信息處理系統(tǒng)同樣需要分詞作為其最基本的模塊。因?yàn)闈h字字符數(shù)量多,編碼方式復(fù)雜,詞與詞之間卻沒(méi)有分隔符,因此,正確地切分詞語(yǔ),是個(gè)很重要的問(wèn)題?! ∧壳暗姆衷~方法歸納起來(lái)有3類(lèi):第一類(lèi)是基于語(yǔ)法和規(guī)則的分詞法。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來(lái)進(jìn)行詞性標(biāo)注,以解決分詞歧義現(xiàn)象。因?yàn)楝F(xiàn)有的語(yǔ)法知識(shí)、句法規(guī)則十分籠統(tǒng)、復(fù)雜,基于語(yǔ)法和規(guī)則的分詞法所能達(dá)到的精確度遠(yuǎn)遠(yuǎn)還不能令人滿(mǎn)意,目前這種分詞系統(tǒng)還處在試驗(yàn)階段。第二類(lèi)是機(jī)械式分詞法。機(jī)械分詞的原理
6、是將文檔中的字符串與詞典中的詞條進(jìn)行逐一匹配,如果詞典中找到某個(gè)字符串,則匹配成2002206208收稿。?1995-2005TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.第4期 傅賽香等:基于統(tǒng)計(jì)的無(wú)詞典分詞方法253功,可以切分,否則不予切分?;谠~典的機(jī)械分詞法,實(shí)現(xiàn)簡(jiǎn)單,實(shí)用性強(qiáng),但機(jī)械分詞法的最大的缺點(diǎn)就是詞典的完備性不能得到保證。據(jù)文獻(xiàn)[1]統(tǒng)計(jì),用一個(gè)含有70000個(gè)詞的詞典去切分含有15000個(gè)詞的語(yǔ)料
7、庫(kù),仍然有30%以上的詞條沒(méi)有被分出來(lái),也就是說(shuō)有4500個(gè)詞沒(méi)有在詞典中登錄。第三類(lèi)是基于統(tǒng)計(jì)的方法。基于統(tǒng)計(jì)的分詞法的基本原理是根據(jù)字符串在語(yǔ)料庫(kù)中出現(xiàn)的統(tǒng)計(jì)頻率來(lái)決定其是否構(gòu)成詞?;诮y(tǒng)計(jì)的分詞方法即是無(wú)詞典分詞方法。本文在分析詞的結(jié)合模式的基礎(chǔ)上,提出3個(gè)過(guò)濾原則對(duì)詞條進(jìn)行過(guò)濾,建立無(wú)詞典分詞模型,并對(duì)無(wú)詞典分詞模型進(jìn)行實(shí)驗(yàn)測(cè)試。1 無(wú)詞典分詞模型 詞是字的組合,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映它們成為詞的可信度。111 詞條模式
8、 如果任意2個(gè)或2個(gè)以上的漢字組成的連續(xù)字符串稱(chēng)為漢字的結(jié)合模式,那么,詞就可以看成是漢語(yǔ)中字與字的一種結(jié)合模式。當(dāng)然,并不是每一個(gè)漢字結(jié)合模式都能構(gòu)成一個(gè)詞,它必須滿(mǎn)足一定語(yǔ)法規(guī)則并且具有確定的語(yǔ)義才能稱(chēng)為詞。 將詞條分為3種模式:統(tǒng)計(jì)模式、詞法模式、語(yǔ)境模式?! 《x1 統(tǒng)計(jì)模式定義為一個(gè)在文檔中出現(xiàn)具有一定的頻度的連續(xù)的字符串?! ”热?從“元搜索引擎”中抽出的“元搜”、“搜索”、“索引”、“引擎”、及“元搜索”、“搜索引”、“索引擎”、及“元