基于樸素貝葉斯的文本分類算法

基于樸素貝葉斯的文本分類算法

ID:884274

大小:41.83 KB

頁數(shù):17頁

時(shí)間:2017-09-23

基于樸素貝葉斯的文本分類算法_第1頁
基于樸素貝葉斯的文本分類算法_第2頁
基于樸素貝葉斯的文本分類算法_第3頁
基于樸素貝葉斯的文本分類算法_第4頁
基于樸素貝葉斯的文本分類算法_第5頁
資源描述:

《基于樸素貝葉斯的文本分類算法》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、基于樸素貝葉斯的文本分類算法摘要:常用的文本分類方法有支持向量機(jī)、K-近鄰算法和樸素貝葉斯。其中樸素貝葉斯具有容易實(shí)現(xiàn),運(yùn)行速度快的特點(diǎn),被廣泛使用。本文詳細(xì)介紹了樸素貝葉斯的基本原理,討論了兩種常見模型:多項(xiàng)式模型(MM)和伯努利模型(BM),實(shí)現(xiàn)了可運(yùn)行的代碼,并進(jìn)行了一些數(shù)據(jù)測試。關(guān)鍵字:樸素貝葉斯;文本分類TextClassificationAlgorithmBasedonNaiveBayesAuthor:soulmachineEmail:soulmachine@gmail.comBlog:www.yanjiuyanjiu.comAbs

2、tract:Usuallytherearethreemethodsfortextclassification:SVM、KNNandNa?veBayes.Na?veBayesiseasytoimplementandfast,soitiswidelyused.ThisarticleintroducedthetheoryofNa?veBayesanddiscussedtwopopularmodels:multinomialmodel(MM)andBernoullimodel(BM)indetails,implementedrunnablecodean

3、dperformedsomedatatests.Keywords:na?vebayes;textclassification第1章貝葉斯原理1.1貝葉斯公式設(shè)A、B是兩個(gè)事件,且P(A)>0,稱為在事件A發(fā)生的條件下事件B發(fā)生的條件概率。乘法公式?P(XYZ)=P(Z

4、XY)P(Y

5、X)P(X)全概率公式?P(X)=P(X

6、Y1)+P(X

7、Y2)+…+P(X

8、Yn)貝葉斯公式在此處,貝葉斯公式,我們要用到的是以上公式,請讀者參考《概率論與數(shù)理統(tǒng)計(jì)(第五版)》的1.4節(jié)“條件概率”(這里將原書中的A換成了X,B換成了Y),獲得更深的理解。1.2貝

9、葉斯定理在分類中的應(yīng)用在分類(classification)問題中,常常需要把一個(gè)事物分到某個(gè)類別。一個(gè)事物具有很多屬性,把它的眾多屬性看做一個(gè)向量,即x=(x1,x2,x3,…,xn),用x這個(gè)向量來代表這個(gè)事物。類別也是有很多種,用集合Y={y1,y2,…ym}表示。如果x屬于y1類別,就可以給x打上y1標(biāo)簽,意思是說x屬于y1類別。這就是所謂的分類(Classification)。x的集合記為X,稱為屬性集。一般X和Y的關(guān)系是不確定的,你只能在某種程度上說x有多大可能性屬于類y1,比如說x有80%的可能性屬于類y1,這時(shí)可以把X和Y看做是

10、隨機(jī)變量,P(Y

11、X)稱為Y的后驗(yàn)概率(posteriorprobability),與之相對的,P(Y)稱為Y的先驗(yàn)概率(priorprobability)[2]。在訓(xùn)練階段,我們要根據(jù)從訓(xùn)練數(shù)據(jù)中收集的信息,對X和Y的每一種組合學(xué)習(xí)后驗(yàn)概率P(Y

12、X)。分類時(shí),來了一個(gè)實(shí)例x,在剛才訓(xùn)練得到的一堆后驗(yàn)概率中找出所有的P(Y

13、x),其中最大的那個(gè)y,即為x所屬分類。根據(jù)貝葉斯公式,后驗(yàn)概率為在比較不同Y值的后驗(yàn)概率時(shí),分母P(X)總是常數(shù),因此可以忽略。先驗(yàn)概率P(Y)可以通過計(jì)算訓(xùn)練集中屬于每一個(gè)類的訓(xùn)練樣本所占的比例容易地估計(jì)。我們來舉個(gè)簡

14、單的例子,讓讀者對上述思路有個(gè)形象的認(rèn)識[3]。考慮一個(gè)醫(yī)療診斷問題,有兩種可能的假設(shè):(1)病人有癌癥。(2)病人無癌癥。樣本數(shù)據(jù)來自某化驗(yàn)測試,它也有兩種可能的結(jié)果:陽性和陰性。假設(shè)我們已經(jīng)有先驗(yàn)知識:在所有人口中只有0.008的人患病。此外,化驗(yàn)測試對有病的患者有98%的可能返回陽性結(jié)果,對無病患者有97%的可能返回陰性結(jié)果。上面的數(shù)據(jù)可以用以下概率式子表示:P(cancer)=0.008,P(無cancer)=0.992P(陽性

15、cancer)=0.98,P(陰性

16、cancer)=0.02P(陽性

17、無cancer)=0.03,P(陰性

18、

19、無cancer)=0.97假設(shè)現(xiàn)在有一個(gè)新病人,化驗(yàn)測試返回陽性,是否將病人斷定為有癌癥呢?在這里,Y={cancer,無cancer},共兩個(gè)類別,這個(gè)新病人是一個(gè)樣本,他有一個(gè)屬性陽性,可以令x=(陽性)。我們可以來計(jì)算各個(gè)類別的后驗(yàn)概率:P(cancer

20、陽性)=P(陽性

21、cancer)p(cancer)=0.98*0.008=0.0078P(無cancer

22、陽性)=P(陽性

23、無cancer)*p(無cancer)=0.03*0.992=0.0298因此,應(yīng)該判斷為無癌癥。在這個(gè)例子中,類條件概率,P(cancer

24、陽性)和P(無canc

25、er

26、陽性)直接告訴了我們。一般地,對類條件概率P(X

27、Y)的估計(jì),有樸素貝葉斯分類器和貝葉斯信念網(wǎng)絡(luò)兩種方法,這里介紹樸素貝葉斯分類器。1.3樸素貝

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。