資源描述:
《基于改進(jìn)貝葉斯算法的文本廣告郵件過濾.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、應(yīng)用安全基于改進(jìn)貝葉斯算法的文本廣告郵件過濾張璐王景中北方工業(yè)大學(xué)信息工程學(xué)院北京100041摘要:本文在分析樸素貝葉斯分類算法基礎(chǔ)上提出了一種改進(jìn)的貝葉斯算法,并將郵件視為句間有序,句內(nèi)關(guān)鍵詞無序的集合,用改進(jìn)的貝葉斯算法模型設(shè)計(jì)了一種文本廣告郵件過濾系統(tǒng),通過實(shí)驗(yàn)證明了其有效性。關(guān)鍵詞:文本廣告郵件;貝葉斯算法;過濾器;哈希表0引言就認(rèn)為是垃圾郵件。這種方法誤判率很高,因?yàn)樵诶]件電子郵件作為Internet中最常用的服務(wù)之一,在給生產(chǎn)和中出現(xiàn)的關(guān)鍵字在正常郵件中也可能出現(xiàn),這種方法越來越生活帶來極大便利的同時(shí),也引發(fā)了垃圾郵件的泛濫。據(jù)中少使用了。國互聯(lián)網(wǎng)協(xié)會(huì)反
2、垃圾郵件中心統(tǒng)計(jì),除了病毒、色情、欺詐第四類過濾也是目前使用較多的基于分類算法的過濾,性的郵件外,剩下的大概有80%的垃圾郵件是中小企業(yè)為推它可以將郵件看作兩類:垃圾郵件、正常郵件,將郵件看作向量空間,計(jì)算郵件的相似度來判斷是否為垃圾郵件。目前主要銷產(chǎn)品而發(fā)布的廣告郵件,它們不僅占用網(wǎng)絡(luò)帶寬,浪費(fèi)網(wǎng)的方法是樸素貝葉斯、SVM、KNN等算法。根據(jù)實(shí)驗(yàn)結(jié)果,樸絡(luò)資源,而且花費(fèi)用戶寶貴時(shí)間去清理,甚至造成商業(yè)欺詐素貝葉斯的過濾效果最好而且速度很快,許多產(chǎn)品已經(jīng)出現(xiàn),行為。因此,垃圾郵件的過濾具有十分重要的現(xiàn)實(shí)意義。如foxmail、outlook中都有基于貝葉斯的郵件過濾功能
3、。傳統(tǒng)的反垃圾郵件技術(shù)對(duì)垃圾郵件的過濾效果都不盡如本文根據(jù)中文廣告郵件的特點(diǎn)對(duì)傳統(tǒng)的貝葉斯分類算法人意。實(shí)際上,垃圾郵件的致命缺陷就是郵件內(nèi)容本身。垃進(jìn)行了改進(jìn),用改進(jìn)后的貝葉斯算法對(duì)廣告郵件進(jìn)行攔截,圾郵件制造者可以通過偽造信頭等方式繞過任何反垃圾郵件實(shí)現(xiàn)有效的內(nèi)容過濾。技術(shù)所設(shè)下屏障,但是無論什么郵件都要傳遞給用戶一定的1關(guān)鍵技術(shù)信息,也就是郵件內(nèi)容,如果反垃圾郵件工具能夠識(shí)別這些信息,那么它們就再也無法避開了。因此,利用文本分類算由于絕大部分郵件本身就是文本,因此廣告郵件的過濾法對(duì)垃圾郵件的內(nèi)容進(jìn)行識(shí)別和過濾逐漸成為反垃圾郵件技主要通過文本識(shí)別和分類技術(shù)來實(shí)現(xiàn)。所
4、謂文本分類,就是先給定分類體系,然后將文本分到術(shù)的主流。某個(gè)或者幾個(gè)類別中去。文本自動(dòng)分類方法必須解決的首要目前控制垃圾郵件的方法主要是過濾。問題就是如何在計(jì)算機(jī)中表示文本,基本的步驟主要包括確第一類過濾是基于IP等控制信息的過濾?;贗P等控制定句子和段落的邊界、刪除停用詞、提取特征詞,然后將文信息的過濾主要用在MTA(郵件傳輸代理)模塊上,此方法將本轉(zhuǎn)換成可以進(jìn)行算法分析的特征向量。已知的一些經(jīng)常發(fā)送垃圾郵件的IP等信息寫入一個(gè)黑名單中,在以后服務(wù)器接受新郵件時(shí),將發(fā)送郵件機(jī)器的IP和此1.1郵件預(yù)處理黑名單進(jìn)行匹配,如果匹配,則拒絕接受此郵件。這種方法根據(jù)RFC8
5、22及MIME協(xié)議對(duì)郵件進(jìn)行解析,主要對(duì)郵件雖然過濾簡(jiǎn)單,速度快,但是過濾效果較差,對(duì)初次出現(xiàn)的格式的解析和對(duì)郵件內(nèi)容的解碼;得出郵件的主題和內(nèi)容;對(duì)垃圾郵件不起作用。于中文郵件,詞與詞之間沒有明顯的分隔符,因此必須對(duì)郵件第二類過濾是基于網(wǎng)絡(luò)測(cè)量平臺(tái)的過濾。在本地網(wǎng)的監(jiān)內(nèi)容進(jìn)行分詞,為下一步特征提取作準(zhǔn)備。測(cè)點(diǎn)將進(jìn)出的與郵件相關(guān)的通信量匯聚成郵件流,并區(qū)分成1.2文本的表示無效郵件流、正常郵件流和異常郵件流,然后根據(jù)這3種郵件文本分類是有監(jiān)督的學(xué)習(xí)任務(wù),任何文本分類算法在學(xué)流的統(tǒng)計(jì)特征,檢測(cè)出本地網(wǎng)中產(chǎn)生的廣告郵件、垃圾郵件習(xí)之前,都要將文本以一種合適的形式表示出來,使
6、其適應(yīng)病毒以及異常郵件行為,并通過基于策略的響應(yīng)機(jī)制實(shí)施攔于分類算法。本文采用向量空間模型(VectorSpaceModel,截和預(yù)警。由于區(qū)分成無效郵件流、正常郵件流和異常郵件VSM)將郵件表示為向量空間中的矢量。每封郵件都可以看作流較困難,此方法目前的過濾效果還不是太好。是詞(或詞組)的序列,所有詞構(gòu)成一個(gè)n維的向量空間。郵件第三類過濾是基于關(guān)鍵字匹配的過濾。關(guān)鍵字匹配是將矢量的分量可以采用布爾表示,即用1表示某詞(或詞組)在文垃圾郵件中可能含有的一些關(guān)鍵字放到文件夾中,當(dāng)來了一檔中出現(xiàn),0表示不出現(xiàn);也可以采用頻度表示,即某詞(或份新郵件時(shí),匹配此新郵件中是否含有
7、那些關(guān)鍵字,如果有詞組)在文檔中出現(xiàn)的次數(shù)。2009.155應(yīng)用安全1.3中文分詞(1)目前,市場(chǎng)上的多數(shù)郵件分類器在處理英文郵件分類的對(duì)同一個(gè)郵件文本,P(X=x)不變,所以在式子(1)中比較問題上都表現(xiàn)出了較好的分類效果,但在中文郵件的分類上最大值時(shí)可以忽略。在貝葉斯分類僅計(jì)算概率P(C=C)和P(X=k卻顯得力不從心,其中很大一部分原因在于中文分詞的準(zhǔn)確x
8、C=C),其中P(C=C)是先驗(yàn)概率,P(X=x
9、C=C)是條件概率。kkk度不高。中文分詞即自動(dòng)識(shí)別詞邊界,將漢字串切分為正確條件概率P(X=x
10、C=C),表示在類別Ck時(shí),X