資源描述:
《基于改進(jìn)權(quán)重的貝葉斯推理和TFIDF算法文本主題詞提取研究.pdf》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、第37卷第1期南京師大學(xué)報(自然科學(xué)版)VoI_37No.12014年3月JOURNALOFNANJINGNORMALUNIVERSITY(NaturalScienceEdition)Mat",2014基于改進(jìn)權(quán)重的貝葉斯推理和TFIDF算法文本主題詞提取研究邵曉根,鞠訓(xùn)光,胡局新,-5忠偉(1.徐#1m程學(xué)院信電工程學(xué)院,江蘇徐州221l11)(2.湘潭大學(xué)信息工程學(xué)院,湖南湘潭411105)[摘要]本文針對中文文本主題詞提取的TFIDF算法不足進(jìn)行了改進(jìn),綜合考慮關(guān)鍵詞在文本中出現(xiàn)的頻率及位置權(quán)重,設(shè)計了貝葉斯推理和TFIDF主題詞提取混合算法,并基于候選
2、詞排序位置進(jìn)行了正向、逆向和中間向前后的提取測試,結(jié)果表明,本算法比單純TFIDF算法正向提取平均準(zhǔn)確率提高了6.2%.[關(guān)鍵詞]貝葉斯推理,位置權(quán)重,主題詞提取,TFIDF算法[中圖分類號]TP391;TP301[文獻(xiàn)標(biāo)志碼]A[文章編號]1001—4616(2014)01—0057-04ResearchofTextSubjectExtractionBasedonImprovedWeightforBayesianReasoningandTFIDFAlgorithmShaoXiaogen,JuXunguang,HuJuxin,MaZhongwei(1.Depa
3、rtmentofInformationandElectricalEngineering,XuzhouInstituteofTechnology,Xuzhou221111,China)(2.CollegeofInformationEngineering,XiangtanUniversity,Xiangtan411105,China)Abstract:TheshortcomingoftheTFIDFalgorithmisimprovedforChinesetexttopicwordextraction.Thispaperconsidersthekeywordsap
4、pearingfrequency,positionweightinthetext,thehybridalgorithmofBayesianReasoningandTFIDFwasdesignedtoextractetopicwords,andthetopicwordswasextractedfromforward,reverseandmiddlebasedonsortingpositionofthecandidatewords.TheresuhswashigheraverageaccuracythanthesimpleTFIDFby6.2%.Keywords:
5、Bayesianreasoning,positionweight,topicwordsextraction,TFIDFalgorithm漢語文本主題詞提取是自然語言理解處理的基礎(chǔ).主題詞常應(yīng)用于文摘、索引、分類、聚類和檢索查重等方面.目前主題詞的提取方法主要有基于詞典、基于規(guī)則和基于統(tǒng)計的提取方法,三類方法各有優(yōu)缺點.基于統(tǒng)計的提取方法最為流行,已經(jīng)取得了較好的研究及應(yīng)用¨.基于統(tǒng)計的方法是通過構(gòu)造評估函數(shù),對特征集合中的每個特征進(jìn)行評估,并對每個特征打分,這樣每個詞語都獲得一個評估值,又稱為權(quán)值.然后將所有特征按權(quán)值大小排序,提取預(yù)定數(shù)目的最優(yōu)特征作為提取結(jié)
6、果的特征子集.顯然,決定文本特征提取效果的主要問題是評估函數(shù)的選取及質(zhì)量.基于統(tǒng)計的特征提取方法目前已有的算法有:由Sahon在1988年提出的TF-IDF、詞頻方法、互信息、信息增益、交叉熵和主成分分析法等方法.上述幾種評價函數(shù)都是試圖通過概率找出特征與主題詞之間的聯(lián)系,信息增益的定義過于復(fù)雜;互信息的效果要好于交叉熵,這是因為互信息是對不同的主題類分別抽取特征詞,而交叉熵與特征在全部主題類內(nèi)的分布有關(guān),是對全部主題類來抽取特征詞.這些方法,在英文特征提取方面都有各自的優(yōu)勢,但用于中文文本效率不高.主要存在2個方面的原因:(1)特征提取的計算量太大,效率太低
7、;(2)經(jīng)過特征提取后生成的特征向量維數(shù)太高,而且不能直接計算出特征向量中各個特征詞的權(quán)重.所以,本文綜合考慮候選詞語位置和頻率信息的改進(jìn)權(quán)重TFIDF方法?,并將其應(yīng)用于市級科技項收稿日期:2013—07—13.基金項目:科技郎國家中小企業(yè)創(chuàng)新基金項目(11C26213204533)、徐州市科技計劃項目(XF1lC052).通訊聯(lián)系人:鞠訓(xùn)光,博士,副教授,研究方向:智能計算、數(shù)據(jù)挖掘、云計算.E—mail:375768447@qq.con一57—南京師大學(xué)報(自然科學(xué)版)第37卷第1期(2014年)目主要研究內(nèi)容的主題詞提取.由于單純應(yīng)用TFIDF算法提取
8、的主題詞準(zhǔn)確率較低,考慮申報者對科技項