資源描述:
《基于集成svm的文本分類方法研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、分類號學校代碼10487學號M201176112密級碩士學位論文基于集成SVM的文本分類方法研究學位申請人:游攀利學科專業(yè):軟件工程指導教師:薛志東副教授答辯日期:2014.1.7萬方數據AThesisSubmittedinPartialFulfillmentoftheRequirementsfortheDegreefortheMasterofEngineeringResearchonChineseTextCategorizationBasedontheIntegratedSupportVectorMachineMethodCandidateMa
2、jorSupervisor:YouPanli:SoftwareEngineering:Assoc.Prof.XueZhidongHuazhongUniversityofScienceandTechnologyWuhan430074,P.R.ChinaJanuary,2014萬方數據獨創(chuàng)性聲明本人聲明所呈交的學位論文是我個人在導師指導下進行的研究工作及取得的研究成果。盡我所知,除文中已經標明引用的內容外,本論文不包含任何其他個人或集體已經發(fā)表或撰寫過的研究成果。對本文的研究做出貢獻的個人和集體,均已在文中以明確方式標明。本人完全意識到本聲明的法律結
3、果由本人承擔。學位論文作者簽名:日期:年月日學位論文版權使用授權書本學位論文作者完全了解學校有關保留、使用學位論文的規(guī)定,即:學校有權保留并向國家有關部門或機構送交論文的復印件和電子版,允許論文被查閱和借閱。本人授權華中科技大學可以將本學位論文的全部或部分內容編入有關數據庫進行檢索,可以采用影印、縮印或掃描等復制手段保存和匯編本學位論文。保密□,本論文屬于不保密□。(請在以上方框內打“√”)學位論文作者簽名:在年解密后適用本授權書。指導教師簽名:日期:年月日日期:年月日萬方數據華中科技大學碩士學位論文摘要伴隨著計算機網絡和信
4、息技術的高速發(fā)展,各行各業(yè)所收集積累的數據規(guī)模越來越可觀,信息的海量式增長使得人們難以迅速找到自己需要的數據。文本分類不但解決了用戶尋找他們感興趣的數據的需求,同時也使得網絡信息從雜亂變得有序。因此,文本分類受到領域專家和學者們的高度重視。文本分類指的是,給定一個分類問題,根據文本的內容自動地關聯到相應的主題類別。支持向量機是其中一種優(yōu)秀的文本分類算法??梢酝ㄟ^組合多個支持向量機分類器的集成學習方式來提高分類性能。主要研究工作如下:(1)討論了中文文本分類的整個過程,涉及文本分詞,去停用詞,文本表示,權重計算,特征降維,常見的分類算法樸素貝葉斯、K
5、最近鄰和支持向量機的基礎理論以及文本分類器性能的評價方法。(2)對支持向量機和集成學習的理論基礎進行了系統(tǒng)的研究,并介紹了兩種經典的集成學習算法Bagging和Boosting。(3)將支持向量機同其他常用的分類算法做了對比,并對比研究了采用不同核函數的支持向量機的表現和基于支持向量機的Bagging和Boosting算法。最后提出了一種基于采用不同核函數的SVM-Bagging的組合投票算法,該算法能顯著提高分類準確率。關鍵詞:中文文本分類特征降維支持向量機集成學習I萬方數據華中科技大學碩士學位論文AbstractWiththerapidd
6、evelopmentcomputernetworksandinformationtechnology,thedatascaleisbecomingmoreandmoreconsiderableineverywalkoflife,massivegrowthofinformationmakesitdifficultforpeopletofindwhattheyneed.Textclassificationtechnologynotonlyhelppeoplefindwhattheyneedquickly,butalsobringingchaostoor
7、deronnetwork.therefore,expertsandscholarsofnaturallanguageprocessingandcomputerattachesgreatimportancetotextclassification.Themaintaskoftextclassificationisclassifythetexttoacategoryaccordingthetextcontentautomatically.NaiveBayes,SVMandKnearestneighborclassificationareallcommo
8、ntextclassificationalgorithm,supportvectormachineclassificati