資源描述:
《樸素貝葉斯分類模型.doc》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、兩種最廣泛的分類模型——決策樹模型和樸素貝葉斯模型。該模型是由貝葉斯公式延伸而來。講到貝葉斯公式先要看條件概率公式該公式說明了如何計算已知B發(fā)生的前提下A還要發(fā)生的概率。A和B是隨機(jī)事件,是否獨立事件都適合這個公式。舉個例子比喻就是你宿舍哥們在北師找了個女朋友,之后分手了,那么在他已經(jīng)在北師成功一次的條件下再次去北師找女朋友成功的概率。如果是獨立事件呢,那就是問在他分手之后,你去北師找女朋友成功的概率(在他不參與指導(dǎo)的前提下)跟他找女朋友是兩碼子事?;卣},之后出場了貝葉斯公式公式很簡單,但是該公式真的
2、超級有用,它揭示了在某種未發(fā)生條件下和已發(fā)生條件下概率的計算關(guān)系,即根據(jù)B發(fā)生條件下A發(fā)生的概率可以推理出A發(fā)生下B發(fā)生的概率。在真實生活中我們很難獲得P(B
3、A)的概率,但是根據(jù)我們已知的P(A
4、B)就可以獲得它,所以該定理的用途十分廣大,可以用作數(shù)據(jù)的預(yù)測分類等。貝葉斯分類算法有很多如樸素貝葉斯算法,TAN算法等樸素貝葉斯是一種很簡單的分類思想,對于給出的帶分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大就認(rèn)為該待分類項屬于哪個類別。簡單點說,就是你在學(xué)院路上發(fā)現(xiàn)一個學(xué)生摸樣的美女,讓你猜
5、這美女是哪的。大家十有八九會猜是北師的,因為北師有美女的概率更高,在沒有其他更多信息的條件下,我們就將這個美女分類到了北師里。這就是樸素貝葉斯的思想。樸素貝葉斯分類的正式定義如下:?????1、設(shè)為一個待分類項,而每個a為x的一個特征屬性。?????2、有類別集合。?????3、計算。?????4、如果,則。對于貝葉斯的分類步驟說明如下,那病毒檢測分類,對于一個病毒的定義可能會是包含多個向量的一個病毒的特征就是一個X,它包含N個特征向量,而對于學(xué)習(xí)集即N++個各種病毒樣本集可以分類為M個分類Y1,Y2.
6、...。為了將某一個病毒樣本放入這M個類中,我們必須按個計算P(Y1
7、X),P(Y2
8、X)等N個計算,并找出其中最大的然后這個樣本就歸類完了。但是我們?nèi)绾斡嬎鉖(Y1
9、X)呢,我如何知道這個病毒出現(xiàn)的狀況下,它是Y1類病毒的概率呢。這就用到了貝葉斯公式了,根據(jù)貝葉斯公式我們可以得知,P(Yi
10、X)=P(X
11、Yi)*P(Yi)/P(X),由于對于每個概率都要除以一個P(X)然后再比較大小,所以沒有影響,關(guān)鍵的影響在于分子,又因為X是含有N個特征向量的空間,樸素貝葉斯分類器認(rèn)為每個向量對于一個病毒的概率影響
12、是相互獨立的所以分子就中的乘項可以分解為:P(N1
13、Yi)*P(N2
14、Yi)*......*P(Yi)。也就是說我只需要計算出每一個特征向量在某一種分類的累乘然后乘以這個分類的概率。這樣算出的最大值所在的分類則為需要的分類。再捋一捋哈,也就是說如果我要想將一個未知的病毒分類,那么我需要計算每個特征在每個類別中的特征出現(xiàn)的概率的累乘然后乘以該分類出現(xiàn)的概率,最后選取最大的則為該分類。貝葉斯的重要和利害在于把先驗概率改成了后驗概率,給力啊。