資源描述:
《基于內(nèi)容的垃圾郵件過濾系統(tǒng)的設計與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。
1、武漢郵電科學研究院碩士學位論文基于內(nèi)容的垃圾郵件過濾系統(tǒng)的設計與實現(xiàn)DesignandImplementationofContentbasedSpamFilteringSystem專業(yè):通信與信息系統(tǒng)研究方向:自然語言處理導師:湯鯤研究生:陶峰學號:20150033二〇一八年一月武漢郵電科學研究院碩士學位論文摘要隨著互聯(lián)網(wǎng)的快速發(fā)展,電子郵件因使用方便,通信快捷,已成為我們生活中的一部分。但是,現(xiàn)在很多的組織或者個人利用電子郵件的便捷,發(fā)布大量垃圾信息,這就是垃圾郵件。如今垃圾郵件問題越來越嚴重,它不僅傳播了大量不良信息,還浪費了我們大量時間。垃圾
2、郵件分類技術中用的比較多的分類算法有樸素貝葉斯(NaiveBayes)、神經(jīng)網(wǎng)絡、K-近鄰法、支持向量機(SVM)等。由于郵件分類算法都是建立特征項提取基礎上的,因此特征項提取直接影響著郵件的分類效果。隨著學者的研究發(fā)現(xiàn),對電子郵件內(nèi)容特征進行提取的有效算法有:文檔頻率、信息增益、互信息、期望交叉熵、文本證據(jù)權、CHI統(tǒng)計以及TFIDF等。TFIDF因其便于理解、操作簡單、時間復雜度低等優(yōu)點被廣泛的運用,該算法也存在不足之處:該方法只考慮了特征詞文檔的絕對數(shù)量和特征詞在某類郵件中的詞頻,沒有考慮到特征詞在類中的分布情況和特征詞在其他類郵件中的詞頻,
3、高估了低頻詞的作用并低估了高頻詞的作用。本文將重點探討并對比現(xiàn)有垃圾郵件過濾技術,分別從郵件預處理、中文分詞、特征提取和分類器等角度展開。在比較多種特征提取算法后,論文選擇對傳統(tǒng)的TFIDF算法進行一定的修改和優(yōu)化,通過降低特例郵件中頻繁出現(xiàn)的特征詞的影響,引入了頻率差,分別對類中頻繁出現(xiàn)和出現(xiàn)頻率小的詞條的權值進行增加和減少。最終實驗結果表明,改進后的方法可以選擇出更適合的特征集合,從而使郵件分類的效果更好,達到更有效的垃圾郵件過濾效果。關鍵詞:郵件過濾詞頻特征提取分類器權值I武漢郵電科學研究院碩士學位論文AbstractWiththerapid
4、developmentoftheInternet,e-mailhasbecomeapartofourlifebecauseofitssimpleoperationandquickcommunication.However,manyorganizationsorindividualsnowusee-mailtofacilitateandreleasealargeamountofspam.Nowadays,theproblemofspamisgettingmoreandmoreserious.Itnotonlytakesupalotofnetworkb
5、andwidth,butalsoconsumesalotoftimeofInternetusers.Therefore,thereisanimportantapplicationrequirementforspamfiltering.ThemostcommonclassificationalgorithmsusedinspamclassificationareNaiveBayes,neuralnetworks,K-nearestneighbors,supportvectormachines(SVM)andsoon.Becausemailclassi
6、ficationalgorithmsarebasedontheestablishmentoffeatureextraction,featureextractiondirectlyaffectstheclassificationofmail.Accordingtotheresearchofscholars,effectivealgorithmsforextractingthefeaturesofe-mailcontentare:documentfrequency,informationgain,mutualinformation,expectatio
7、ncrossentropy,textualevidence,CHIstatisticsandTFIDF.TFIDFiswidelyusedduetoitsadvantagessuchaseasytounderstand,simpleoperationandlowtimecomplexity.Thealgorithmalsohassomeshortcomings.Thismethodonlyconsiderstheabsolutenumberoffeaturewordsandthewordfrequencyoffeaturewordsincertai
8、ntypesofe-mail,Withoutconsideringthedistributionoffeatureword