基于bayes的郵件過濾系統(tǒng)的研究與設(shè)計(jì)_論文

基于bayes的郵件過濾系統(tǒng)的研究與設(shè)計(jì)_論文

ID:11940575

大?。?3.01 KB

頁(yè)數(shù):10頁(yè)

時(shí)間:2018-07-15

基于bayes的郵件過濾系統(tǒng)的研究與設(shè)計(jì)_論文_第1頁(yè)
基于bayes的郵件過濾系統(tǒng)的研究與設(shè)計(jì)_論文_第2頁(yè)
基于bayes的郵件過濾系統(tǒng)的研究與設(shè)計(jì)_論文_第3頁(yè)
基于bayes的郵件過濾系統(tǒng)的研究與設(shè)計(jì)_論文_第4頁(yè)
基于bayes的郵件過濾系統(tǒng)的研究與設(shè)計(jì)_論文_第5頁(yè)
資源描述:

《基于bayes的郵件過濾系統(tǒng)的研究與設(shè)計(jì)_論文》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、基于Bayes的郵件過濾系統(tǒng)的研究與設(shè)計(jì)摘要郵件過濾技術(shù)是反垃圾郵件的重要手段,本文提出了一種基于服務(wù)器端的垃圾郵件過濾系統(tǒng),它采用改進(jìn)的Bayes算法,將反映垃圾郵件的特征綜合在一起統(tǒng)稱為“屬性”,用這些“屬性”構(gòu)成表示郵件特征的向量空間模型重點(diǎn)特征向量,避免了單純基于IP、信頭、信封過濾的規(guī)則性太強(qiáng)的缺點(diǎn),降低將正常郵件判斷為垃圾郵件的風(fēng)險(xiǎn)。關(guān)鍵詞電子郵件;垃圾郵件;郵件過濾0引言中國(guó)互聯(lián)網(wǎng)信息中心2017年7月公布的《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,中國(guó)網(wǎng)民平均每周收到封電子郵件,其中垃圾郵件就占據(jù)了封,垃圾郵件的數(shù)量超過了正常郵件數(shù)量,并有進(jìn)一步增

2、長(zhǎng)的趨勢(shì),之所以造成垃圾郵件泛濫,是因?yàn)榻鼛啄陙韺拵ЬW(wǎng)絡(luò)的快速發(fā)展、網(wǎng)絡(luò)通信成本的不斷下降以及硬件性能的提高并且成本不斷降低給垃圾郵件提供了很好的環(huán)境;電子郵件的易偽造性也是垃圾郵件泛濫的原因之一;還有現(xiàn)在對(duì)垃圾郵件,國(guó)家缺乏法律和規(guī)范的約束。雖然人們?cè)诩夹g(shù)和法律方面都進(jìn)行不斷的努力,垃圾郵件已經(jīng)得到了一定的控制,但是,在國(guó)內(nèi)由于技術(shù)和立法還沒有達(dá)到一個(gè)足夠的程度,導(dǎo)致國(guó)家已經(jīng)成為世界垃圾郵件的新源頭。10/10垃圾郵件的泛濫會(huì)造成很多危害,不僅影響國(guó)家的政治穩(wěn)定、用戶的正常工作學(xué)習(xí),還會(huì)影響網(wǎng)絡(luò)的安全性、穩(wěn)定性、高效性;占用網(wǎng)絡(luò)帶寬和存儲(chǔ)空間。所以對(duì)于垃圾郵

3、件的防范及過濾技術(shù)的研究很有意義。1研究現(xiàn)狀目前存在的反垃圾郵件技術(shù),主要有三個(gè)大的方向:一是修改現(xiàn)有的SMTP協(xié)議,制定一個(gè)新的安全可靠郵件協(xié)議,讓垃圾郵件沒有“生存的環(huán)境”。二是使大量發(fā)送垃圾郵件發(fā)送者承受“巨大的成本”,以致通過電子郵件渠道來大量發(fā)送廣告信息在經(jīng)濟(jì)利益上不合算,來減少垃圾郵件。第三種是根據(jù)郵件的格式,發(fā)送時(shí)間,文件大小,內(nèi)容以及其它特性,來識(shí)別該郵件是否為垃圾郵件,如果是,則把垃圾郵件過濾掉。識(shí)別的方法多種多樣,過濾垃圾郵件效果的好壞決定于識(shí)別方法的準(zhǔn)確度。10/10第一種方式是通過完善通信協(xié)議,增強(qiáng)安全認(rèn)證性能,消除垃圾郵件泛濫的環(huán)境,

4、來減少或消滅垃圾郵件產(chǎn)生。第二種方式是通過經(jīng)濟(jì)利益杠桿,使得在網(wǎng)絡(luò)上大量的發(fā)送垃圾郵件,要承受巨大的經(jīng)濟(jì)負(fù)擔(dān),以至通過垃圾郵件來廣告宣傳方法是不經(jīng)濟(jì)的,來減少垃圾郵件產(chǎn)生。第三種是當(dāng)垃圾郵件產(chǎn)生以后,通過各種各樣的方法把垃圾郵件從郵件中識(shí)別出來并過濾掉,讓接收者感覺不到這些垃圾郵件的騷擾。前兩種是主動(dòng)的方式,推的方式,從垃圾郵件產(chǎn)生的根源出發(fā),不同的是一個(gè)從技術(shù)的角度,一個(gè)是從經(jīng)濟(jì)的角度。而第三種方式是被動(dòng)的方式、拉的方式,它并不能杜絕垃圾郵件的重復(fù)產(chǎn)生,只能當(dāng)垃圾郵件產(chǎn)生以后,通過方法識(shí)別出垃圾郵件,及時(shí)的剔除他們。前兩種方式應(yīng)用起來更加困難、復(fù)雜而第三種方

5、式相對(duì)簡(jiǎn)單易行,因此當(dāng)前第三種方式的反垃圾郵件方法研究和應(yīng)用的更多。垃圾郵件過濾技術(shù)就是第三種方式的反垃圾郵件方法,也是反垃圾郵件技術(shù)發(fā)展的重要方向之一。從過濾的方法來分,過濾可以分為基于關(guān)鍵字的過濾、基于黑白名單的過濾、基于規(guī)則的過濾、基于內(nèi)容的過濾等等。2系統(tǒng)設(shè)計(jì)設(shè)計(jì)目標(biāo)目標(biāo)是設(shè)計(jì)一個(gè)基于SMTP的、位于服務(wù)器前端的、具有較高過濾精度的垃圾郵件過濾系統(tǒng)。對(duì)于垃圾郵件的過濾,精度是最重要的問題,因?yàn)橄啾仁盏綆追饫]件來說,一封正常的郵件被過濾掉更讓人難以接受,本系統(tǒng)所采取的所有方法都是旨在提高垃圾郵件過濾的精度。該系統(tǒng)位于郵件服務(wù)器的前端,代替郵件服務(wù)器接

6、收郵件,完成過濾后,把郵件轉(zhuǎn)發(fā)給郵件服務(wù)器,再由郵件服務(wù)器完成以后的功能。該系統(tǒng)具備的功能主要有:⑴郵件數(shù)據(jù)包攔截⑵郵件數(shù)據(jù)包編、解碼⑶高精度的自動(dòng)分詞⑷垃圾郵件過濾⑸自主學(xué)習(xí)⑹垃圾郵件處理⑺正常郵件轉(zhuǎn)發(fā)⑻自動(dòng)回復(fù)系統(tǒng)流程因?yàn)殡娮余]件是以一定的編碼方式在網(wǎng)絡(luò)上根據(jù)SMTP協(xié)議傳送的郵件數(shù)據(jù)包,所以系統(tǒng)首先攔截?cái)?shù)據(jù)包,在SMTP會(huì)話過程中,可以根據(jù)會(huì)話過程中的MailFrom和Rcpt10/10To等會(huì)話進(jìn)行過濾。經(jīng)過這一層過濾后,將得到的郵件數(shù)據(jù)包進(jìn)行解碼,解碼后的郵件為普通文本格式。電子郵件一般格式包括信頭和信體兩部分,其中信頭包括發(fā)件人地址、收件人地址、主

7、題、日期、路由信息等重要信息,信體是郵件的正文。很多時(shí)候僅僅根據(jù)信頭信息就可以判斷一封郵件是否為垃圾郵件,所以先分離出信頭和信體的信息,然后分別進(jìn)行基于信頭和基于內(nèi)容的過濾。因?yàn)槲谋距]件的內(nèi)容是機(jī)器無法識(shí)別的文本,所以首先要進(jìn)行分詞處理:分詞的精度是影響分類的一個(gè)重要因素,所以這里必須注意消除歧義字段。根據(jù)垃圾郵件的特征向量構(gòu)造表示該郵件文本的特征向量。然后把文本的特征向量通過郵件過濾器,區(qū)分出正常郵件和垃圾郵件。對(duì)于正常郵件,直接編碼,按照SMTP協(xié)議發(fā)送給郵件服務(wù)器;而對(duì)于垃圾郵件則需要多種處理,如:保存、刪除、自動(dòng)回復(fù)等。這樣就完成了一個(gè)完整的垃圾郵件過

8、濾系統(tǒng)的功能。圖110/10我們知道,

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。