資源描述:
《貝葉斯過濾垃圾郵件算法的基本步驟》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、一、貝葉斯過濾算法的基本步驟1)、收集大量的垃圾郵件和非垃圾郵件,建立垃圾郵件集和非垃圾郵件集;2)、提取郵件主題和郵件體中的獨立字串例如ABC32,¥234等作為TOKEN串并統(tǒng)計提取出的TOKEN串出現(xiàn)的次數(shù)即字頻。按照上述的方法分別處理垃圾郵件集和非垃圾郵件集中的所有郵件;3)、每一個郵件集對應(yīng)一個哈希表,Hashtable_Good對應(yīng)非垃圾郵件集而Hashtable_Bad對應(yīng)垃圾郵件集。表中存儲TOKEN串到字頻的映射關(guān)系;4)、計算每個哈希表中TOKEN串出現(xiàn)的概率P=(某TOKEN串的字頻)/(對應(yīng)哈希表的長度);5)、綜合考慮hashtable_good和hashtab
2、le_bad,推斷出當新來的郵件中出現(xiàn)某個TOKEN串時,該新郵件為垃圾郵件的概率。數(shù)學(xué)表達式為:A事件——郵件為垃圾郵件;t1,t2,...,tn代表TOKEN串則P(A
3、ti)表示在郵件中出現(xiàn)TOKEN串ti時,該郵件為垃圾郵件的概率。設(shè)P1(ti)=(ti在hashtable_good中的值)P2(ti)=(ti在hashtable_bad中的值)則P(A
4、ti)=P1(ti)/[(P1(ti)+P2(ti)];6)、建立新的哈希表hashtable_probability存儲TOKEN串ti到P(A
5、ti)的映射;7)、至此,垃圾郵件集和非垃圾郵件集的學(xué)習過程結(jié)束。根據(jù)建立的哈希
6、表Hashtable_Probability可以估計一封新到的郵件為垃圾郵件的可能性。當新到一封郵件時,按照步驟2)生成TOKEN串。查詢hashtable_probability得到該TOKEN串的鍵值。假設(shè)由該郵件共得到N個TOKEN串,t1,t2…….tn,hashtable_probability中對應(yīng)的值為P1,P2,。。。。。。PN,P(A
7、t1,t2,t3……tn)表示在郵件中同時出現(xiàn)多個TOKEN串t1,t2…….tn時,該郵件為垃圾郵件的概率。由復(fù)合概率公式可得P(A
8、t1,t2,t3……tn)=(P1*P2*。。。。PN)/[P1*P2*。。。。。PN+(1-P1)*
9、(1-P2)*。。。(1-PN)]當P(A
10、t1,t2,t3……tn)超過預(yù)定閾值時,就可以判斷郵件為垃圾郵件。二、貝葉斯過濾算法舉例例如:一封含有“法輪功”字樣的垃圾郵件A和一封含有“法律”字樣的非垃圾郵件B根據(jù)郵件A生成hashtable_bad,該哈希表中的記錄為法:1次輪:1次功:1次計算得在本表中:法出現(xiàn)的概率為0.3輪出現(xiàn)的概率為0.3功出現(xiàn)的概率為0.3根據(jù)郵件B生成hashtable_good,該哈希表中的記錄為:法:1律:1計算得在本表中:法出現(xiàn)的概率為0.5律出現(xiàn)的概率為0.5綜合考慮兩個哈希表,共有四個TOKEN串:法輪功律當郵件中出現(xiàn)“法”時,該郵件為垃圾郵件的概
11、率為:P=0.3/(0.3+0.5)=0.375出現(xiàn)“輪”時:P=0.3/(0.3+0)=1出現(xiàn)“功“時:P=0.3/(0.3+0)=1出現(xiàn)“律”時P=0/(0+0.5)=0;由此可得第三個哈希表:hashtable_probability其數(shù)據(jù)為:法:0.375輪:1功:1律:0當新到一封含有“功律”的郵件時,我們可得到兩個TOKEN串,功律查詢哈希表hashtable_probability可得P(垃圾郵件
12、功)=1P(垃圾郵件
13、律)=0此時該郵件為垃圾郵件的可能性為:P=(0*1)/[0*1+(1-0)*(1-1)]=0由此可推出該郵件為非垃圾郵件基于樸素貝葉斯分類器的文本分類算法
14、(上)本文緣起于最近在讀的一本書--TomM.Mitchell的《機器學(xué)習》,書中第6章詳細講解了貝葉斯學(xué)習的理論知識,為了將其應(yīng)用到實際中來,參考了網(wǎng)上許多資料,從而得此文。文章將分為兩個部分,第一部分將介紹貝葉斯學(xué)習的相關(guān)理論(如果你對理論不感興趣,請直接跳至第二部分<<基于樸素貝葉斯分類器的文本分類算法(下)>>)。第二部分講如何將貝葉斯分類器應(yīng)用到中文文本分類,隨文附上示例代碼。?Introduction我們在《概率論和數(shù)理統(tǒng)計》這門課的第一章都學(xué)過貝葉斯公式和全概率公式,先來簡單復(fù)習下:條件概率定義設(shè)A,B是兩個事件,且P(A)>0稱P(B∣A)=P(AB)/P(A)為在條件A
15、下發(fā)生的條件事件B發(fā)生的條件概率。乘法公式設(shè)P(A)>0則有P(AB)=P(B∣A)P(A)全概率公式和貝葉斯公式定義設(shè)S為試驗E的樣本空間,B1,B2,…Bn為E的一組事件,若BiBj=Ф,i≠j,i,j=1,2,…,n;B1∪B2∪…∪Bn=S則稱B1,B2,…,Bn為樣本空間的一個劃分。定理設(shè)試驗E的樣本空間為,A為E的事件,B1,B2,…,Bn為的一個劃分,且P(Bi)>0(i=1,2,…n),則P(A)=P(A∣B1)P(