資源描述:
《基于VSM的中文文本分類算法研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、單位代碼:10293密級:碩士學位論文論文題目:基于VSM的中文文本分類算法研究學號1015010606姓名余偉中導師唐加山學科專業(yè)信號與信息處理研究方向現代通信中的智能信號處理技術申請學位類別工學碩士論文提交日期二〇一八年三月ResearchofChinesetextclassificationalgorithmsbasedonVSMThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByWeizhong
2、YuSupervisor:Prof.JiashanTangMarch2018南京郵電大學學位論文原創(chuàng)性聲明本人聲明所呈交的學位論文是我個人在導師指導下進行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標注和致謝的地方外,論文中不包含其他人已經發(fā)表或撰寫過的研究成果,也不包含為獲得南京郵電大學或其它教育機構的學位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已在論文中作了明確的說明并表示了謝意。本人學位論文及涉及相關資料若有不實,愿意承擔一切相關的法律責任。研究生學號:___________研究生簽名:________
3、____日期:____________南京郵電大學學位論文使用授權聲明本人授權南京郵電大學可以保留并向國家有關部門或機構送交論文的復印件和電子文檔;允許論文被查閱和借閱;可以將學位論文的全部或部分內容編入有關數據庫進行檢索;可以采用影印、縮印或掃描等復制手段保存、匯編本學位論文。本文電子文檔的內容和紙質論文的內容相一致。論文的公布(包括刊登)授權南京郵電大學研究生院辦理。涉密學位論文在解密后適用本授權書。研究生簽名:____________導師簽名:____________日期:_____________摘要隨著網絡技術的迅速發(fā)展,眾多信息資
4、源以文本的形式呈現。人們期望通過對文本數據的處理,來快速準確地獲得有用的信息,文本分類作為處理文檔的一個重要途徑,在信息處理中起到重要的作用。近年來,隨著機器學習研究的逐步深入,文本分類技術得到了很好的發(fā)展。然而,在大量的文本中將文本準確地分類并不如想象中的那么簡單,通常需要經過文本預處理、特征選擇、特征加權、分類器的訓練等步驟來實現,這些具體步驟所使用的算法,仍然有許多可以改進的地方。本文在對中文文本分類中特征選擇、特征加權及分類器的具體算法進行研究的基礎上提出改進算法,主要工作如下:(1)針對特征選擇中信息增益算法未考慮中文特征詞在類間分
5、布問題,本文提出了基于信息熵加權的信息增益改進算法。利用信息熵衡量中文特征詞在類間分布情況,為不同類別的信息增益賦予相應權值,仿真實驗表明改進后的算法具有良好的分類效果。(2)針對TF-IDF特征權重算法沒有考慮特征在類別間分布集中程度對分類的影響這一事實,運用物理學上重力矩概念,提出了一種新的TF-IDF-ICL(termfrequency&inversedocumentfrequency&inter-classconcentrationlevel)算法,仿真實驗驗證了新算法能有效地提高文本分類的準確率及召回率。(3)針對樸素貝葉斯理論的屬
6、性獨立性不符合客觀實際情況的事實,本文提出了基于互信息加權的樸素貝葉斯文本分類算法。該方法使用互信息對不同類別中的特征項進行了分別賦權,部分消除了假設對分類效果的影響,仿真實驗表明改進后的算法具有良好的分類效果。關鍵詞:文本分類,信息增益,信息熵,重力矩,TF-IDF,互信息,樸素貝葉斯分類IAbstractWiththerapiddevelopmentofnetworktechnology,manyinformationresourcesappearintheformoftext.Peopleexpecttogetusefulinforma
7、tionquicklyandaccuratelybyprocessingtextdata.Textclassification,asanimportantwaytoprocessdocuments,playsanimportantroleininformationprocessing.Inrecentyears,withthefurtherresearchofmachinelearning,thetechnologiesoftextclassificationhavebeendevelopingrapidly.However,theaccur
8、ateclassificationoftextinalargenumberoftextisnotassimpleassupposed,itgenerallyneed