貝葉斯過(guò)濾垃圾郵件算法的基本步驟

ID：14427695

大小：475.92 KB

頁(yè)數(shù)：31頁(yè)

時(shí)間：2018-07-28

資源描述：

《貝葉斯過(guò)濾垃圾郵件算法的基本步驟》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。

1、一、貝葉斯過(guò)濾算法的基本步驟1)、收集大量的垃圾郵件和非垃圾郵件，建立垃圾郵件集和非垃圾郵件集；2)、提取郵件主題和郵件體中的獨(dú)立字串例如ABC32，￥234等作為T(mén)OKEN串并統(tǒng)計(jì)提取出的TOKEN串出現(xiàn)的次數(shù)即字頻。按照上述的方法分別處理垃圾郵件集和非垃圾郵件集中的所有郵件；3)、每一個(gè)郵件集對(duì)應(yīng)一個(gè)哈希表，Hashtable_Good對(duì)應(yīng)非垃圾郵件集而Hashtable_Bad對(duì)應(yīng)垃圾郵件集。表中存儲(chǔ)TOKEN串到字頻的映射關(guān)系；4)、計(jì)算每個(gè)哈希表中TOKEN串出現(xiàn)的概率P=（某TOKEN串的字頻）/（對(duì)應(yīng)哈希表的長(zhǎng)度）；5)、綜合考慮hashtable_good和hash

2、table_bad，推斷出當(dāng)新來(lái)的郵件中出現(xiàn)某個(gè)TOKEN串時(shí)，該新郵件為垃圾郵件的概率。數(shù)學(xué)表達(dá)式為：A事件——郵件為垃圾郵件;t1,t2,...,tn代表TOKEN串則P（A

3、ti）表示在郵件中出現(xiàn)TOKEN串ti時(shí)，該郵件為垃圾郵件的概率。設(shè)P1（ti）=（ti在hashtable_good中的值）P2（ti）=（ti在hashtable_bad中的值）則P（A

4、ti）=P1（ti）/[（P1（ti）+P2（ti）]；6)、建立新的哈希表hashtable_probability存儲(chǔ)TOKEN串ti到P（A

5、ti）的映射；7)、至此，垃圾郵件集和非垃圾郵件集的學(xué)習(xí)過(guò)程結(jié)束。根

6、據(jù)建立的哈希表Hashtable_Probability可以估計(jì)一封新到的郵件為垃圾郵件的可能性。當(dāng)新到一封郵件時(shí)，按照步驟2）生成TOKEN串。查詢hashtable_probability得到該TOKEN串的鍵值。假設(shè)由該郵件共得到N個(gè)TOKEN串，t1,t2…….tn,hashtable_probability中對(duì)應(yīng)的值為P1，P2，。。。。。。PN，P(A

7、t1,t2,t3……tn)表示在郵件中同時(shí)出現(xiàn)多個(gè)TOKEN串t1,t2…….tn時(shí)，該郵件為垃圾郵件的概率。由復(fù)合概率公式可得P(A

8、t1,t2,t3……tn)=（P1*P2*。。。。PN）/[P1*P2*。。。。。P

9、N+（1-P1）*（1-P2）*。。。（1-PN）]當(dāng)P(A

10、t1,t2,t3……tn)超過(guò)預(yù)定閾值時(shí)，就可以判斷郵件為垃圾郵件。二、貝葉斯過(guò)濾算法舉例例如：一封含有“法輪功”字樣的垃圾郵件A和一封含有“法律”字樣的非垃圾郵件B根據(jù)郵件A生成hashtable_bad，該哈希表中的記錄為法：1次輪：1次功：1次計(jì)算得在本表中：法出現(xiàn)的概率為0.3輪出現(xiàn)的概率為0.3功出現(xiàn)的概率為0.3根據(jù)郵件B生成hashtable_good，該哈希表中的記錄為：法：1律：1計(jì)算得在本表中：法出現(xiàn)的概率為0.5律出現(xiàn)的概率為0.5綜合考慮兩個(gè)哈希表，共有四個(gè)TOKEN串：法輪功律當(dāng)郵件中出現(xiàn)“法”

11、時(shí)，該郵件為垃圾郵件的概率為：P=0.3/（0.3+0.5）=0.375出現(xiàn)“輪”時(shí)：P=0.3/（0.3+0）=1出現(xiàn)“功“時(shí)：P=0.3/（0.3+0）=1出現(xiàn)“律”時(shí)P=0/（0+0.5）=0；由此可得第三個(gè)哈希表：hashtable_probability其數(shù)據(jù)為：法：0.375輪：1功：1律：0當(dāng)新到一封含有“功律”的郵件時(shí)，我們可得到兩個(gè)TOKEN串，功律查詢哈希表hashtable_probability可得P（垃圾郵件

12、功）=1P（垃圾郵件

13、律）=0此時(shí)該郵件為垃圾郵件的可能性為：P=（0*1）/[0*1+（1-0）*（1-1）]=0由此可推出該郵件為非垃圾郵件基于

14、樸素貝葉斯分類器的文本分類算法（上）本文緣起于最近在讀的一本書(shū)--TomM.Mitchell的《機(jī)器學(xué)習(xí)》,書(shū)中第6章詳細(xì)講解了貝葉斯學(xué)習(xí)的理論知識(shí)，為了將其應(yīng)用到實(shí)際中來(lái)，參考了網(wǎng)上許多資料，從而得此文。文章將分為兩個(gè)部分，第一部分將介紹貝葉斯學(xué)習(xí)的相關(guān)理論(如果你對(duì)理論不感興趣，請(qǐng)直接跳至第二部分<<基于樸素貝葉斯分類器的文本分類算法（下）>>)。第二部分講如何將貝葉斯分類器應(yīng)用到中文文本分類，隨文附上示例代碼。?Introduction我們?cè)凇陡怕收摵蛿?shù)理統(tǒng)計(jì)》這門(mén)課的第一章都學(xué)過(guò)貝葉斯公式和全概率公式，先來(lái)簡(jiǎn)單復(fù)習(xí)下：條件概率定義設(shè)A,B是兩個(gè)事件，且P(A)>0稱P(B∣

15、A)=P(AB)/P(A)為在條件A下發(fā)生的條件事件B發(fā)生的條件概率。乘法公式設(shè)P(A)>0則有P(AB)=P(B∣A)P(A)全概率公式和貝葉斯公式定義設(shè)S為試驗(yàn)E的樣本空間，B1,B2,…Bn為E的一組事件，若BiBj=Ф,i≠j,i,j=1,2,…,n;B1∪B2∪…∪Bn=S則稱B1,B2,…,Bn為樣本空間的一個(gè)劃分。定理設(shè)試驗(yàn)E的樣本空間為，A為E的事件，B1,B2,…,Bn為的一個(gè)劃分，且P(Bi)>0(i=1,2,…n)，則P(A)=P(A∣B1)P(

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 31



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

貝葉斯過(guò)濾垃圾郵件算法的基本步驟

貝葉斯過(guò)濾垃圾郵件算法的基本步驟

相關(guān)文章

相關(guān)標(biāo)簽