改進(jìn)的樸素貝葉斯算法在垃圾郵件過(guò)濾中的研究.pdf

改進(jìn)的樸素貝葉斯算法在垃圾郵件過(guò)濾中的研究.pdf

ID:49235261

大?。?52.63 KB

頁(yè)數(shù):9頁(yè)

時(shí)間:2020-02-28

改進(jìn)的樸素貝葉斯算法在垃圾郵件過(guò)濾中的研究.pdf_第1頁(yè)
改進(jìn)的樸素貝葉斯算法在垃圾郵件過(guò)濾中的研究.pdf_第2頁(yè)
改進(jìn)的樸素貝葉斯算法在垃圾郵件過(guò)濾中的研究.pdf_第3頁(yè)
改進(jìn)的樸素貝葉斯算法在垃圾郵件過(guò)濾中的研究.pdf_第4頁(yè)
改進(jìn)的樸素貝葉斯算法在垃圾郵件過(guò)濾中的研究.pdf_第5頁(yè)
資源描述:

《改進(jìn)的樸素貝葉斯算法在垃圾郵件過(guò)濾中的研究.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)

1、第38卷第4期通信學(xué)報(bào)Vol.38No.42017年4月JournalonCommunicationsApril2017doi:10.11959/j.issn.1000-436x.2017084改進(jìn)的樸素貝葉斯算法在垃圾郵件過(guò)濾中的研究111,21楊雷,曹翠玲,孫建國(guó),張立國(guó)(1.哈爾濱工程大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江哈爾濱150001;2.中國(guó)科學(xué)院信息工程研究所,北京100093)摘要:提出了一種利用支持向量機(jī)改進(jìn)的樸素貝葉斯算法——TSVM-NB算法。首先利用NB算法對(duì)樣本集進(jìn)行初次訓(xùn)練,利用支持向量機(jī)構(gòu)造一個(gè)最優(yōu)分類超平面,每個(gè)樣本根據(jù)與其距離最近樣本的類型

2、是否相同進(jìn)行取舍,這樣既降低樣本空間規(guī)模,又提高每個(gè)樣本類別的獨(dú)立性,最后再次用樸素貝葉斯算法訓(xùn)練樣本集從而生成分類模型。仿真實(shí)驗(yàn)結(jié)果表明,該算法在樣本空間進(jìn)行取舍過(guò)程當(dāng)中消除了冗余屬性,可以快速得到分類特征子集,提高了垃圾郵件過(guò)濾的分類速度、召回率和正確率。關(guān)鍵詞:郵件過(guò)濾;樸素貝葉斯;支持向量機(jī);修剪策略中圖分類號(hào):TP309文獻(xiàn)標(biāo)識(shí)碼:AStudyonanimprovednaiveBayesalgorithminspamfiltering111,21YANGLei,CAOCui-ling,SUNJian-guo,ZHANGLi-guo(1.CollegeofCom

3、puterScienceandTechnology,HarbinEngineeringUniversity,Harbin150001,China;2.InstituteofInformationEngineering,ChineseAcademyofSciences,Beijing100093,China)Abstract:AmethodofimprovedsupportvectormachinenaiveBayesalgorithmwasproposed——TSVM-NBalgorithm.FirstusingNBalgorithmtoinitialsampleset

4、,constructinganoptimalclassificationbySVM,eachsampleaccordingtoitsdistancefromthesamplewasthesametypeofrecentchoice,soastoreducethesizeofthesamplespace,butalsoim-provetheindependenceofeachsamplethelastcategory,againwithnaiveBayesalgorithmtrainingsettogeneratetheclassificationmodel.Simula

5、tionresultsshowthatthealgorithmselectionprocesstoeliminatetheredundantattributesinthesamplespace,theclassificationfeaturesubsetcanbegotquicklyandimprovespamfilteringclassificationspeed,re-callrateandaccuracyofthesamealgorithm.Keywords:spamfiltering,naiveBayes,SVM,trimstrategy[2]1)黑白名單過(guò)濾。

6、該方法分為黑白2個(gè)名單1引言列表,如果一個(gè)IP頻繁發(fā)送垃圾郵件,就將該IP近年來(lái),網(wǎng)絡(luò)通信技術(shù)飛速發(fā)展,電子郵件成放入黑名單中,此后該地址發(fā)送的郵件都將默認(rèn)為為人們?nèi)粘I詈凸ぷ鞯闹饕獪贤ǚ绞街?,但垃垃圾郵件,白名單與其相反,都視為正常郵件。還圾郵件問(wèn)題也接踵而來(lái)。根據(jù)中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)最新有實(shí)時(shí)黑白名單技術(shù),該技術(shù)的黑白名單列表交由[1]調(diào)查報(bào)告顯示,用戶電子郵箱平均每周收到郵件第三方來(lái)維護(hù),該方法是通過(guò)DNS的方式來(lái)動(dòng)態(tài)38.6封,其中,垃圾郵件12.8封,占比高達(dá)33.1%。地查詢某個(gè)IP地址是否在列表中。如果對(duì)方采用動(dòng)大量的垃圾郵件不但浪費(fèi)了網(wǎng)絡(luò)帶寬和資源,也造態(tài)

7、或隱藏IP,該方法將受到限制。成了時(shí)間和金錢(qián)上的損失,因此,人們對(duì)于垃圾郵2)基于規(guī)則的過(guò)濾技術(shù)。決策樹(shù)是基于規(guī)則過(guò)件過(guò)濾技術(shù)的發(fā)展需求強(qiáng)烈。濾技術(shù)的代表,1966年,Hunt研制了一個(gè)關(guān)于概目前,垃圾郵件過(guò)濾方法主要分為以下3類。念學(xué)習(xí)的系統(tǒng)(CLS,conceptlearningsystem),這是收稿日期:2016-12-30;修回日期:2017-02-22基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61202455,No.61472096)FoundationItem:TheNationalNaturalScienceFoundat

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。