文本分類特征提取算法的研究

文本分類特征提取算法的研究

ID:35082934

大小:5.39 MB

頁數(shù):56頁

時(shí)間:2019-03-17

文本分類特征提取算法的研究_第1頁
文本分類特征提取算法的研究_第2頁
文本分類特征提取算法的研究_第3頁
文本分類特征提取算法的研究_第4頁
文本分類特征提取算法的研究_第5頁
資源描述:

《文本分類特征提取算法的研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、分類號:TP391單位代碼:10183研究生學(xué)號:2013544042密級:公開參宙林大學(xué)碩古學(xué)位論文專A聲位()文本分類特征提取算法的硏究ResearchonFeatureExtractionAlorithmofTextClassificationg作者姓名:劉斌類別:工程碩:t領(lǐng)域(方向):軟件工程指導(dǎo)教師:歐陽丹形教授培養(yǎng)單位:軟件學(xué)院2(U6年5月文本分類特征提取算法的研究ResearchonFeatureExtractionAlgorithmofTextClassification作者姓

2、名:劉斌領(lǐng)域(方向):軟件工程指導(dǎo)教師:歐陽丹彤教授類別:工程碩士答辯日期:2016年5月28日未經(jīng)本論文作者的書面授權(quán),依法收存和保管本論文書面版本、電子版本的任何單位和個(gè)人,均不得對本論文的會部或部分內(nèi)容進(jìn)行任何形式的復(fù)制、修改、發(fā)行、出租、改編等有礙作者著作權(quán)的商業(yè)性使用(但純學(xué)術(shù)性使用不在此限)。否則,應(yīng)承擔(dān)侵權(quán)的法律責(zé)任。吉林大學(xué)碩±學(xué)位論文原創(chuàng)性聲明,本人鄭重聲明:所呈交的碩±學(xué)位論文,是本人在指導(dǎo)教師的指導(dǎo)下獨(dú)立進(jìn)行研巧工作所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不包含任何其他個(gè)人或集體己經(jīng)發(fā)表或撰寫過的作品成果。對本文的

3、研巧做出重要貢獻(xiàn)的個(gè)人和集體。,均己在文中找明確方式標(biāo)明本人完全意識到本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作者簽名:曰期;年r月。曰^摘要文本分類特征提取算法的研究文本分類是一種分析與使用海量文本數(shù)據(jù)信息的有效手段。其技術(shù)難點(diǎn)之一是處理特征向量空間的高維性,這種高維性使得文本分類變得十分低效,因此特征降維成為文本分類工作首先需要解決的問題。作為特征向量空間降維常用的技術(shù),特征提取方法的性能高低直接影響到文本分類的效果。許多研究表明,信息增益是一種性能相對較好的特征提取方法。然而,信息增益算法在文本分類的問題上仍有其局限和優(yōu)化空間,本文從以下三個(gè)方面對其進(jìn)行

4、了改進(jìn):(1)為了平衡每個(gè)特征詞在信息增益公式中出現(xiàn)與否對信息增益評分的影響能力,借鑒sigmoid的函數(shù)思想,提出了基于詞頻的γ調(diào)節(jié)因子的信息增益改進(jìn)算法。(2)為了體現(xiàn)特征詞在各個(gè)類別分布均勻程度與區(qū)分能力的關(guān)聯(lián),確保在各個(gè)類別之間分布不均勻的特征詞具有較強(qiáng)的區(qū)分能力,著眼于特征詞在類別分布情況,對信息增益的評分結(jié)果進(jìn)行進(jìn)一步優(yōu)化。(3)考慮到現(xiàn)實(shí)文本集中非均衡文本大量存在,倘若算法沒有顧及各類別包含的文檔數(shù)大小,則會使其優(yōu)先選擇趨向大類的特征詞,而忽視小類的特征詞。為此,本文借鑒了統(tǒng)計(jì)學(xué)中卡方檢驗(yàn)的思想,針對非均衡文檔類別評分排序優(yōu)化的方法,使得在特征維度較小的情況下,

5、仍能保持不錯(cuò)的性能。對比實(shí)驗(yàn)結(jié)果表明:本文的改進(jìn)算法所得到的文本分類結(jié)果,在各個(gè)類別上的準(zhǔn)確率、召回率以及F1值都取得較理想的性能提升,從而驗(yàn)證了本文所提出的信息增益改進(jìn)算法的可行性與有效性。關(guān)鍵詞:文本分類,特征提取,信息增益,調(diào)節(jié)因子,卡方檢驗(yàn)IAbstractResearchonFeatureExtractionAlgorithmofTextClassificationTextclassificationisaneffectivemethodtoanalyzeandusemassivetextdata.Oneofthedifficultiesistodealwithth

6、ehighdimensionoffeaturesanditmakestextclassificationveryinefficient.Therefore,dimensionreductionisthefirstproblemtobesolvedintextclassificationsystem.Asafeaturevectorspacedimensionreductiontechniques,theperformanceoffeatureextractionmethoddirectlyaffectstheeffectoftextclassification.Manystu

7、diesshowthatinformationgainisarelativelygoodfeatureselectionmethod.However,theinformationgainalgorithmstillhasitslimitationsandoptimizationspaceinthetextclassification.Thispaperhasimprovedthealgorithmfromthefollowingthreeaspects:(1)Inordertobalancetheinf

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時(shí)可能會顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。