基于特征選擇和最大熵模型的漢語詞義消歧

基于特征選擇和最大熵模型的漢語詞義消歧

ID:5996569

大?。?35.38 KB

頁數(shù):9頁

時間:2017-12-30

基于特征選擇和最大熵模型的漢語詞義消歧_第1頁
基于特征選擇和最大熵模型的漢語詞義消歧_第2頁
基于特征選擇和最大熵模型的漢語詞義消歧_第3頁
基于特征選擇和最大熵模型的漢語詞義消歧_第4頁
基于特征選擇和最大熵模型的漢語詞義消歧_第5頁
資源描述:

《基于特征選擇和最大熵模型的漢語詞義消歧》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。

1、ISSN1000-9825,CODENRUXUEWE-mail:jos@iscas.ac.cnJournalofSoftware,Vol.21,No.6,June2010,pp.1287?1295http://www.jos.org.cndoi:10.3724/SP.J.1001.2010.03591Tel/Fax:+86-10-62562563?byInstituteofSoftware,theChineseAcademyofSciences.Allrightsreserved.?基于特征選擇和最大熵模型

2、的漢語詞義消歧1,21,2+何徑舟,王厚峰1(北京大學信息科學技術學院計算語言學研究所,北京100871)2(北京大學計算語言學教育部重點實驗室,北京100871)ChineseWordSenseDisambiguationBasedonMaximumEntropyModelwithFeatureSelection1,21,2+HEJing-Zhou,WANGHou-Feng1(InstituteofComputationalLinguistics,SchoolofElectronicEngineering

3、andComputerScience,PekingUniversity,Beijing100871,China)2(KeyLaboratoryofComputationalLinguistics(MinistryofEducation),PekingUniversity,Beijing100871,China)+Correspondingauthor:E-mail:wanghf@pku.edu.cnHeJZ,WangHF.Chinesewordsensedisambiguationbasedonmaximu

4、mentropymodelwithfeatureselection.JournalofSoftware,2010,21(6):1287?1295.http://www.jos.org.cn/1000-9825/3591.htmAbstract:Wordsensedisambiguation(WSD)canbethoughtasaclassificationproblem.Featureselectionisofgreatimportanceinsuchatask.Ingeneral,featuresares

5、electedmanually,whichrequiresadeepunderstandingofthetaskitselfandtheemployedclassificationmodel.Inthispaper,theeffectoffeaturetemplateonChineseWSDisstudied,andanautomaticfeatureselectionalgorithmbasedonmaximumentropymodel(MEM)isproposed,includinguniformfea

6、turetemplateselectionforallambiguouswordsandcustomizedfeaturetemplateselectionforeachword.ExperimentalresultshowsthatautomaticfeatureselectioncanreducefeaturesizeandimproveChineseWSDperformance.ComparedwiththebestevaluationresultsofSemEval2007:task#5,thism

7、ethodgetsMicroAve(micro-averageaccuracy)increase3.10%andMacroAve(macro-averageaccuracy)2.96%respectively.Keywords:maximumentropymodel;classificationfeature;automaticfeatureselection;Chinesewordsensedisambiguation摘要:詞義消歧是自然語言處理中一類典型的分類問題.在分類中,特征的選擇至關重要.通常情況

8、下,特征是由人工選擇的,這就要求特征選取者對于待分類的問題本身和分類模型的特點有深刻的認識.分析了漢語詞義消岐中特征模板對消歧結果的影響,在此基礎上提出一套基于最大熵分類模型的自動特征選擇方法,包括針對所有歧義詞的統(tǒng)一特征模板選擇和針對單個歧義詞的獨立特征模板優(yōu)化算法.實驗結果表明,使用自動選擇的特征,不僅簡化了特征模板,而且提高了漢語詞義消歧的性能.與SemEval2007:task#5的最好成績相比,該方法分

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。