基于貝葉斯公式的垃圾郵件過濾方法

基于貝葉斯公式的垃圾郵件過濾方法

ID:33580188

大?。?52.03 KB

頁數(shù):3頁

時間:2019-02-27

基于貝葉斯公式的垃圾郵件過濾方法_第1頁
基于貝葉斯公式的垃圾郵件過濾方法_第2頁
基于貝葉斯公式的垃圾郵件過濾方法_第3頁
資源描述:

《基于貝葉斯公式的垃圾郵件過濾方法》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。

1、維普資訊http://www.cqvip.com計算機科學2005Voi.32N,2-.2基于貝葉斯公式的垃圾郵件過濾方法詹川盧顯良周旭侯孟書袁連海(電子科技大學計算機科學與工程學院成都610054)摘要伴隨著電子郵件的廣泛使用,垃圾郵件泛濫成災,嚴重影響了人們正常的學習、工作和生活。本文提出了一種改進的基于貝葉斯公式垃圾郵件過濾技術。我們采用了基-Piq~的特征項提取方法,并且使用特征項單詞出現(xiàn)頻率來表示向量,推導出相應的貝葉斯計算公式。實驗表明,我們的方法使垃圾郵件過濾的整體性能都有明顯提高。關鍵詞貝葉

2、斯公式,垃圾郵件過濾,特征項提取,向量AnAnti—SpamE-mailFilteringMethodBasedonBayesianZHANChuanLUXian—-LiangZHOUXuHOUMeng—-ShuYUANLian—-Hai(CollegeofComputerScienceandEngineering,UESTCofChina,Chengdu610054)AbstractAlongwithwideapplicationofe—mailnowadays.alargenumberofspame—m

3、ailsfloodintopeople’SlifeandbringcatastrophetOtheirstudyandlife.ThispaperpresentsanewBayesian—basedanti—spame—mailfilteringmethod.Weadoptawayofattributeselectionbasedonwordentropy,usevectorswhicharerepresentedbywordfrequency,anddeduceitscorrespondingBayesi

4、anformula.Itisprovedthatourfilterimprovestotalperformancesapparentlyinourexperiment.KeywordsBayesian,Anti—spame—mailfiltering,Attributeselection,Vector4、含有虛假的信息源、發(fā)件人、路由等信息的電子郵件。1引言在當前聲勢浩大的反垃圾郵件運動中,許多國家出臺了伴隨著Internet的普及,電子郵件以其快捷、方便、低成反垃圾郵件法,如美國、日本、歐洲等,中國也在今

5、年的全國政本的特點日益得到了廣泛的使用,成為互聯(lián)網上最重要、最普協(xié)十屆二次會議提出了加快“反垃圾郵件立法”進程的提案。及的應用。但是隨之而來的垃圾郵件也越來越猖獗,嚴重影響美國的AOL通過對垃圾郵件的發(fā)送者起訴,對控制垃圾郵和損害人們的工作、生活和學習。據美國BrightMail公司的件起到一定作用,但是據美國業(yè)界官員介紹通過立法來反垃報告稱,2002年美國人平均收到2200封垃圾郵件,若按垃圾郵圾郵件收效甚微,因為這些垃圾郵件發(fā)送者可通過國外來轉件每月增長2的速度遞增,到2007年,這一數(shù)字將達到3600

6、發(fā)。據美國Brightmail公司統(tǒng)計,美國2004年2月收到的垃圾封。據英國貿易工業(yè)部官員稱,垃圾郵件現(xiàn)在占到全球電子郵郵件已占總數(shù)的62。因此反垃圾郵件不能光依靠立法,還要件流量的40。更有甚者,據韓國信息保護振興院統(tǒng)計,韓國依靠技術手段。目前國內大部分郵件服務提供商都提供了一國內電子郵件80為垃圾郵件,其中60含有淫穢內容。在些簡單的垃圾郵件過濾功能,如設置簡單的規(guī)則,配置黑名單中國,據中國互聯(lián)網絡信息中·~2004年1月公布的第十三次等等,但功能簡單,其效果不太理想?!吨袊ヂ?lián)網絡發(fā)展狀況統(tǒng)計報告》

7、[】]顯示,中國網民平均每在智能過濾垃圾郵件方面,Sahami[3]等人提出采用機器周收到13.7封電子郵件,其中垃圾郵件占據了7.9封,垃圾郵學習方法來進行處理。他們采用二進制來表示郵件特征向量,件數(shù)量超過了正常郵件數(shù)量。美國是受垃圾郵件危害最嚴重通過特征屬性的互信息量來提取特征項,用貝葉斯公式來計的國家,一年由于垃圾郵件給企業(yè)帶來的損失高達90億美元,算郵件是垃圾郵件的概率來識別郵件。一些實驗證明用貝而中國僅次于美國,排在第二,中國網民一年收到的垃圾郵件葉斯公式來進行垃圾郵件識別相當有效。本文提出一種改

8、進總數(shù)為460億封,浪費處理在垃圾郵件的時間為15億小時,過的基于貝葉斯原理的垃圾郵件過濾方法,采用了基于詞熵2003年垃圾郵件浪費中國的GDP高達48億元R】。垃圾郵件的的特征項提取方法,使用特征項單詞出現(xiàn)頻率來表示特征向肆虐使得電子郵件系統(tǒng)本身的存在受到嚴重挑戰(zhàn),嚴重影響量,則其對應的垃圾郵件過濾方法具有更高的垃圾郵件識別了電子郵件的健康發(fā)展。的準確性和查全性。本文第1節(jié)為引言,第2節(jié)介紹使用的郵件關于垃圾郵

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。