資源描述:
《基于改進貝葉斯算法的文本廣告郵件過濾.pdf》由會員上傳分享,免費在線閱讀,更多相關內容在行業(yè)資料-天天文庫。
1、應用安全基于改進貝葉斯算法的文本廣告郵件過濾張璐王景中北方工業(yè)大學信息工程學院北京100041摘要:本文在分析樸素貝葉斯分類算法基礎上提出了一種改進的貝葉斯算法,并將郵件視為句間有序,句內關鍵詞無序的集合,用改進的貝葉斯算法模型設計了一種文本廣告郵件過濾系統(tǒng),通過實驗證明了其有效性。關鍵詞:文本廣告郵件;貝葉斯算法;過濾器;哈希表0引言就認為是垃圾郵件。這種方法誤判率很高,因為在垃圾郵件電子郵件作為Internet中最常用的服務之一,在給生產和中出現(xiàn)的關鍵字在正常郵件中也可能出現(xiàn),這種方法越來越生活帶來極大便利的同時,也引發(fā)了垃圾郵件的泛濫。據(jù)中少使用了。國互聯(lián)網(wǎng)協(xié)會反
2、垃圾郵件中心統(tǒng)計,除了病毒、色情、欺詐第四類過濾也是目前使用較多的基于分類算法的過濾,性的郵件外,剩下的大概有80%的垃圾郵件是中小企業(yè)為推它可以將郵件看作兩類:垃圾郵件、正常郵件,將郵件看作向量空間,計算郵件的相似度來判斷是否為垃圾郵件。目前主要銷產品而發(fā)布的廣告郵件,它們不僅占用網(wǎng)絡帶寬,浪費網(wǎng)的方法是樸素貝葉斯、SVM、KNN等算法。根據(jù)實驗結果,樸絡資源,而且花費用戶寶貴時間去清理,甚至造成商業(yè)欺詐素貝葉斯的過濾效果最好而且速度很快,許多產品已經(jīng)出現(xiàn),行為。因此,垃圾郵件的過濾具有十分重要的現(xiàn)實意義。如foxmail、outlook中都有基于貝葉斯的郵件過濾功能
3、。傳統(tǒng)的反垃圾郵件技術對垃圾郵件的過濾效果都不盡如本文根據(jù)中文廣告郵件的特點對傳統(tǒng)的貝葉斯分類算法人意。實際上,垃圾郵件的致命缺陷就是郵件內容本身。垃進行了改進,用改進后的貝葉斯算法對廣告郵件進行攔截,圾郵件制造者可以通過偽造信頭等方式繞過任何反垃圾郵件實現(xiàn)有效的內容過濾。技術所設下屏障,但是無論什么郵件都要傳遞給用戶一定的1關鍵技術信息,也就是郵件內容,如果反垃圾郵件工具能夠識別這些信息,那么它們就再也無法避開了。因此,利用文本分類算由于絕大部分郵件本身就是文本,因此廣告郵件的過濾法對垃圾郵件的內容進行識別和過濾逐漸成為反垃圾郵件技主要通過文本識別和分類技術來實現(xiàn)。所
4、謂文本分類,就是先給定分類體系,然后將文本分到術的主流。某個或者幾個類別中去。文本自動分類方法必須解決的首要目前控制垃圾郵件的方法主要是過濾。問題就是如何在計算機中表示文本,基本的步驟主要包括確第一類過濾是基于IP等控制信息的過濾?;贗P等控制定句子和段落的邊界、刪除停用詞、提取特征詞,然后將文信息的過濾主要用在MTA(郵件傳輸代理)模塊上,此方法將本轉換成可以進行算法分析的特征向量。已知的一些經(jīng)常發(fā)送垃圾郵件的IP等信息寫入一個黑名單中,在以后服務器接受新郵件時,將發(fā)送郵件機器的IP和此1.1郵件預處理黑名單進行匹配,如果匹配,則拒絕接受此郵件。這種方法根據(jù)RFC8
5、22及MIME協(xié)議對郵件進行解析,主要對郵件雖然過濾簡單,速度快,但是過濾效果較差,對初次出現(xiàn)的格式的解析和對郵件內容的解碼;得出郵件的主題和內容;對垃圾郵件不起作用。于中文郵件,詞與詞之間沒有明顯的分隔符,因此必須對郵件第二類過濾是基于網(wǎng)絡測量平臺的過濾。在本地網(wǎng)的監(jiān)內容進行分詞,為下一步特征提取作準備。測點將進出的與郵件相關的通信量匯聚成郵件流,并區(qū)分成1.2文本的表示無效郵件流、正常郵件流和異常郵件流,然后根據(jù)這3種郵件文本分類是有監(jiān)督的學習任務,任何文本分類算法在學流的統(tǒng)計特征,檢測出本地網(wǎng)中產生的廣告郵件、垃圾郵件習之前,都要將文本以一種合適的形式表示出來,使
6、其適應病毒以及異常郵件行為,并通過基于策略的響應機制實施攔于分類算法。本文采用向量空間模型(VectorSpaceModel,截和預警。由于區(qū)分成無效郵件流、正常郵件流和異常郵件VSM)將郵件表示為向量空間中的矢量。每封郵件都可以看作流較困難,此方法目前的過濾效果還不是太好。是詞(或詞組)的序列,所有詞構成一個n維的向量空間。郵件第三類過濾是基于關鍵字匹配的過濾。關鍵字匹配是將矢量的分量可以采用布爾表示,即用1表示某詞(或詞組)在文垃圾郵件中可能含有的一些關鍵字放到文件夾中,當來了一檔中出現(xiàn),0表示不出現(xiàn);也可以采用頻度表示,即某詞(或份新郵件時,匹配此新郵件中是否含有
7、那些關鍵字,如果有詞組)在文檔中出現(xiàn)的次數(shù)。2009.155應用安全1.3中文分詞(1)目前,市場上的多數(shù)郵件分類器在處理英文郵件分類的對同一個郵件文本,P(X=x)不變,所以在式子(1)中比較問題上都表現(xiàn)出了較好的分類效果,但在中文郵件的分類上最大值時可以忽略。在貝葉斯分類僅計算概率P(C=C)和P(X=k卻顯得力不從心,其中很大一部分原因在于中文分詞的準確x
8、C=C),其中P(C=C)是先驗概率,P(X=x
9、C=C)是條件概率。kkk度不高。中文分詞即自動識別詞邊界,將漢字串切分為正確條件概率P(X=x
10、C=C),表示在類別Ck時,X