資源描述:
《基于樸素貝葉斯的文本分類算法》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、基于樸素貝葉斯的文本分類算法摘要:常用的文本分類方法有支持向量機(jī)、K-近鄰算法和樸素貝葉斯。其中樸素貝葉斯具有容易實(shí)現(xiàn),運(yùn)行速度快的特點(diǎn),被廣泛使用。本文詳細(xì)介紹了樸素貝葉斯的基本原理,討論了兩種常見模型:多項(xiàng)式模型(MM)和伯努利模型(BM),實(shí)現(xiàn)了可運(yùn)行的代碼,并進(jìn)行了一些數(shù)據(jù)測試。關(guān)鍵字:樸素貝葉斯;文本分類TextClassificationAlgorithmBasedonNaiveBayesAuthor:soulmachineEmail:soulmachine@gmail.comBlog:www.yanjiuyanjiu.comAbs
2、tract:Usuallytherearethreemethodsfortextclassification:SVM、KNNandNa?veBayes.Na?veBayesiseasytoimplementandfast,soitiswidelyused.ThisarticleintroducedthetheoryofNa?veBayesanddiscussedtwopopularmodels:multinomialmodel(MM)andBernoullimodel(BM)indetails,implementedrunnablecodean
3、dperformedsomedatatests.Keywords:na?vebayes;textclassification第1章貝葉斯原理1.1貝葉斯公式設(shè)A、B是兩個(gè)事件,且P(A)>0,稱為在事件A發(fā)生的條件下事件B發(fā)生的條件概率。乘法公式?P(XYZ)=P(Z
4、XY)P(Y
5、X)P(X)全概率公式?P(X)=P(X
6、Y1)+P(X
7、Y2)+…+P(X
8、Yn)貝葉斯公式在此處,貝葉斯公式,我們要用到的是以上公式,請讀者參考《概率論與數(shù)理統(tǒng)計(jì)(第五版)》的1.4節(jié)“條件概率”(這里將原書中的A換成了X,B換成了Y),獲得更深的理解。1.2貝
9、葉斯定理在分類中的應(yīng)用在分類(classification)問題中,常常需要把一個(gè)事物分到某個(gè)類別。一個(gè)事物具有很多屬性,把它的眾多屬性看做一個(gè)向量,即x=(x1,x2,x3,…,xn),用x這個(gè)向量來代表這個(gè)事物。類別也是有很多種,用集合Y={y1,y2,…ym}表示。如果x屬于y1類別,就可以給x打上y1標(biāo)簽,意思是說x屬于y1類別。這就是所謂的分類(Classification)。x的集合記為X,稱為屬性集。一般X和Y的關(guān)系是不確定的,你只能在某種程度上說x有多大可能性屬于類y1,比如說x有80%的可能性屬于類y1,這時(shí)可以把X和Y看做是
10、隨機(jī)變量,P(Y
11、X)稱為Y的后驗(yàn)概率(posteriorprobability),與之相對的,P(Y)稱為Y的先驗(yàn)概率(priorprobability)[2]。在訓(xùn)練階段,我們要根據(jù)從訓(xùn)練數(shù)據(jù)中收集的信息,對X和Y的每一種組合學(xué)習(xí)后驗(yàn)概率P(Y
12、X)。分類時(shí),來了一個(gè)實(shí)例x,在剛才訓(xùn)練得到的一堆后驗(yàn)概率中找出所有的P(Y
13、x),其中最大的那個(gè)y,即為x所屬分類。根據(jù)貝葉斯公式,后驗(yàn)概率為在比較不同Y值的后驗(yàn)概率時(shí),分母P(X)總是常數(shù),因此可以忽略。先驗(yàn)概率P(Y)可以通過計(jì)算訓(xùn)練集中屬于每一個(gè)類的訓(xùn)練樣本所占的比例容易地估計(jì)。我們來舉個(gè)簡
14、單的例子,讓讀者對上述思路有個(gè)形象的認(rèn)識[3]。考慮一個(gè)醫(yī)療診斷問題,有兩種可能的假設(shè):(1)病人有癌癥。(2)病人無癌癥。樣本數(shù)據(jù)來自某化驗(yàn)測試,它也有兩種可能的結(jié)果:陽性和陰性。假設(shè)我們已經(jīng)有先驗(yàn)知識:在所有人口中只有0.008的人患病。此外,化驗(yàn)測試對有病的患者有98%的可能返回陽性結(jié)果,對無病患者有97%的可能返回陰性結(jié)果。上面的數(shù)據(jù)可以用以下概率式子表示:P(cancer)=0.008,P(無cancer)=0.992P(陽性
15、cancer)=0.98,P(陰性
16、cancer)=0.02P(陽性
17、無cancer)=0.03,P(陰性
18、
19、無cancer)=0.97假設(shè)現(xiàn)在有一個(gè)新病人,化驗(yàn)測試返回陽性,是否將病人斷定為有癌癥呢?在這里,Y={cancer,無cancer},共兩個(gè)類別,這個(gè)新病人是一個(gè)樣本,他有一個(gè)屬性陽性,可以令x=(陽性)。我們可以來計(jì)算各個(gè)類別的后驗(yàn)概率:P(cancer
20、陽性)=P(陽性
21、cancer)p(cancer)=0.98*0.008=0.0078P(無cancer
22、陽性)=P(陽性
23、無cancer)*p(無cancer)=0.03*0.992=0.0298因此,應(yīng)該判斷為無癌癥。在這個(gè)例子中,類條件概率,P(cancer
24、陽性)和P(無canc
25、er
26、陽性)直接告訴了我們。一般地,對類條件概率P(X
27、Y)的估計(jì),有樸素貝葉斯分類器和貝葉斯信念網(wǎng)絡(luò)兩種方法,這里介紹樸素貝葉斯分類器。1.3樸素貝