資源描述:
《樸素貝葉斯分類(lèi).ppt》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。
1、樸素貝葉斯NaiveBayes重慶大學(xué)軟件信息服務(wù)工程實(shí)驗(yàn)室余俊良1.定義?ABAB條件概率若是全集,A、B是其中的事件(子集),P表示事件發(fā)生的概率,則?為事件B發(fā)生后A發(fā)生的概率。乘法定理注:當(dāng)P(AB)不容易直接求得時(shí),可考慮利用P(A)與P(B
2、A)的乘積或P(B)與P(A
3、B)的乘積間接求得。乘法定理的推廣1.集合(樣本空間)的劃分二、全概率公式2.全概率公式全概率公式圖示證明化整為零各個(gè)擊破說(shuō)明全概率公式的主要用途在于它可以將一個(gè)復(fù)雜事件的概率計(jì)算問(wèn)題,分解為若干個(gè)簡(jiǎn)單事件的概率計(jì)算問(wèn)題,最后應(yīng)用概率的可加性求出最終結(jié)果.例1有一批同一型號(hào)的產(chǎn)品,已知其中由一廠生產(chǎn)的占30
4、%,二廠生產(chǎn)的占50%,三廠生產(chǎn)的占20%,又知這三個(gè)廠的產(chǎn)品次品率分別為2%,1%,1%,問(wèn)從這批產(chǎn)品中任取一件是次品的概率是多少設(shè)事件A為“任取一件為次品”,解由全概率公式得30%20%50%2%1%1%AB1B2B3貝葉斯公式Bayes公式的意義假設(shè)導(dǎo)致事件A發(fā)生的“原因”有Bi(i=1,2,…,n)個(gè)。它們互不相容?,F(xiàn)已知事件A確已經(jīng)發(fā)生了,若要估計(jì)它是由“原因”Bi所導(dǎo)致的概率,則可用Bayes公式求出.即可從結(jié)果分析原因.證明乘法定理:例2貝葉斯公式的應(yīng)用解(1)由全概率公式得(2)由貝葉斯公式得由以往的數(shù)據(jù)分析得到的概率,叫做先驗(yàn)概率.而在得到信息之后再重新加以修正的概率
5、叫做后驗(yàn)概率.先驗(yàn)概率與后驗(yàn)概率貝葉斯分類(lèi)貝葉斯分類(lèi)器是一個(gè)統(tǒng)計(jì)分類(lèi)器。它們能夠預(yù)測(cè)類(lèi)別所屬的概率,如:一個(gè)數(shù)據(jù)對(duì)象屬于某個(gè)類(lèi)別的概率。貝葉斯分類(lèi)器是基于貝葉斯定理而構(gòu)造出來(lái)的。對(duì)分類(lèi)方法進(jìn)行比較的有關(guān)研究結(jié)果表明:簡(jiǎn)單貝葉斯分類(lèi)器(稱為基本貝葉斯分類(lèi)器)在分類(lèi)性能上與決策樹(shù)和神經(jīng)網(wǎng)絡(luò)都是可比的。在處理大規(guī)模數(shù)據(jù)庫(kù)時(shí),貝葉斯分類(lèi)器已表現(xiàn)出較高的分類(lèi)準(zhǔn)確性和運(yùn)算性能。20貝葉斯分類(lèi)定義:設(shè)X是類(lèi)標(biāo)號(hào)未知的數(shù)據(jù)樣本。設(shè)H為某種假定,如數(shù)據(jù)樣本X屬于某特定的類(lèi)C。對(duì)于分類(lèi)問(wèn)題,我們希望確定P(H
6、X),即給定觀測(cè)數(shù)據(jù)樣本X,假定H成立的概率。貝葉斯定理給出了如下計(jì)算P(H
7、X)的簡(jiǎn)單有效的方
8、法:P(H)是先驗(yàn)概率,或稱H的先驗(yàn)概率。P(X
9、H)代表假設(shè)H成立的情況下,觀察到X的概率。P(H
10、X)是后驗(yàn)概率,或稱條件X下H的后驗(yàn)概率。21貝葉斯分類(lèi)先驗(yàn)概率泛指一類(lèi)事物發(fā)生的概率,通常根據(jù)歷史資料或主觀判斷,未經(jīng)實(shí)驗(yàn)證實(shí)所確定的概率。而后驗(yàn)概率涉及的是某個(gè)特定條件下一個(gè)具體的事物發(fā)生的概率22貝葉斯分類(lèi)例如:P(x1)=0.9:細(xì)胞為正常細(xì)胞的概率0.9(先驗(yàn)概率)P(x2)=0.1:細(xì)胞為異常細(xì)胞的概率0.1(先驗(yàn)概率)對(duì)某個(gè)具體的對(duì)象y,P(x1
11、y):表示y的細(xì)胞正常的概率是0.82(后驗(yàn)概率)P(x2
12、y):表示y的細(xì)胞異常的概率是0.18(后驗(yàn)概率)樸素貝葉斯分類(lèi)樸
13、素貝葉斯分類(lèi)的工作過(guò)程如下:(1)每個(gè)數(shù)據(jù)樣本用一個(gè)n維特征向量X={x1,x2,……,xn}表示,分別描述對(duì)n個(gè)屬性A1,A2,……,An樣本的n個(gè)度量。(2)假定有m個(gè)類(lèi)C1,C2,…,Cm,給定一個(gè)未知的數(shù)據(jù)樣本X(即沒(méi)有類(lèi)標(biāo)號(hào)),分類(lèi)器將預(yù)測(cè)X屬于具有最高后驗(yàn)概率(條件X下)的類(lèi)。也就是說(shuō),樸素貝葉斯分類(lèi)將未知的樣本分配給類(lèi)Ci(1≤i≤m)當(dāng)且僅當(dāng)P(Ci
14、X)>P(Cj
15、X),對(duì)任意的j=1,2,…,m,j≠i。這樣,最大化P(Ci
16、X)。其P(Ci
17、X)最大的類(lèi)Ci稱為最大后驗(yàn)假定。根據(jù)貝葉斯定理24樸素貝葉斯分類(lèi)(3)由于P(X)對(duì)于所有類(lèi)為常數(shù),只需要P(X
18、Ci)*
19、P(Ci)最大即可。如果Ci類(lèi)的先驗(yàn)概率未知,則通常假定這些類(lèi)是等概率的,即P(C1)=P(C2)=…=P(Cm),因此問(wèn)題就轉(zhuǎn)換為對(duì)P(X
20、Ci)的最大化(P(X
21、Ci)常被稱為給定Ci時(shí)數(shù)據(jù)X的似然度,而使P(X
22、Ci)最大的假設(shè)Ci稱為最大似然假設(shè))。否則,需要最大化P(X
23、Ci)*P(Ci)。注意,類(lèi)的先驗(yàn)概率可以用P(Ci)=si/s計(jì)算,其中si是類(lèi)Ci中的訓(xùn)練樣本數(shù),而s是訓(xùn)練樣本總數(shù)。25樸素貝葉斯分類(lèi)(4)給定具有許多屬性的數(shù)據(jù)集,計(jì)算P(X
24、Ci)的開(kāi)銷(xiāo)可能非常大。為降低計(jì)算P(X
25、Ci)的開(kāi)銷(xiāo),可以做類(lèi)條件獨(dú)立的樸素假定。給定樣本的類(lèi)標(biāo)號(hào),假定屬性值相互條件獨(dú)立,
26、即在屬性間,不存在依賴關(guān)系。這樣聯(lián)合概率分布26樸素貝葉斯分類(lèi)(5)對(duì)未知樣本X分類(lèi),也就是對(duì)每個(gè)類(lèi)Ci,計(jì)算P(X
27、Ci)*P(Ci)。樣本X被指派到類(lèi)Ci,當(dāng)且僅當(dāng)P(Ci
28、X)>P(Cj
29、X),1≤j≤m,j≠i,換言之,X被指派到其P(X
30、Ci)*P(Ci)最大的類(lèi)?!按蚓W(wǎng)球”的決定No.天氣氣溫濕度風(fēng)類(lèi)別1晴熱高無(wú)N2晴熱高有N3多云熱高無(wú)P4雨適中高無(wú)P5雨冷正常無(wú)P6雨冷正常有N7多云冷正常有PNo.天氣氣溫濕度風(fēng)類(lèi)別8晴適中高無(wú)