資源描述:
《樸素貝葉斯分類》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、樸素貝葉斯分類1.1、摘要??????貝葉斯分類是一類分類算法的總稱,這類算法均以貝葉斯定理為基礎(chǔ),故統(tǒng)稱為貝葉斯分類。本文作為分類算法的第一篇,將首先介紹分類問題,對分類問題進(jìn)行一個(gè)正式的定義。然后,介紹貝葉斯分類算法的基礎(chǔ)——貝葉斯定理。最后,通過實(shí)例討論貝葉斯分類中最簡單的一種:樸素貝葉斯分類。1.2、分類問題綜述?????對于分類問題,其實(shí)誰都不會陌生,說我們每個(gè)人每天都在執(zhí)行分類操作一點(diǎn)都不夸張,只是我們沒有意識到罷了。例如,當(dāng)你看到一個(gè)陌生人,你的腦子下意識判斷TA是男是女;你可能經(jīng)常會走在路上對身旁的朋友說“這個(gè)人一看就很有錢、那邊有個(gè)非主流”
2、之類的話,其實(shí)這就是一種分類操作。?????從數(shù)學(xué)角度來說,分類問題可做如下定義:?????已知集合:和,確定映射規(guī)則,使得任意有且僅有一個(gè)使得成立。(不考慮模糊數(shù)學(xué)里的模糊集情況)?????其中C叫做類別集合,其中每一個(gè)元素是一個(gè)類別,而I叫做項(xiàng)集合,其中每一個(gè)元素是一個(gè)待分類項(xiàng),f叫做分類器。分類算法的任務(wù)就是構(gòu)造分類器f。?????這里要著重強(qiáng)調(diào),分類問題往往采用經(jīng)驗(yàn)性方法構(gòu)造映射規(guī)則,即一般情況下的分類問題缺少足夠的信息來構(gòu)造100%正確的映射規(guī)則,而是通過對經(jīng)驗(yàn)數(shù)據(jù)的學(xué)習(xí)從而實(shí)現(xiàn)一定概率意義上正確的分類,因此所訓(xùn)練出的分類器并不是一定能將每個(gè)待分類
3、項(xiàng)準(zhǔn)確映射到其分類,分類器的質(zhì)量與分類器構(gòu)造方法、待分類數(shù)據(jù)的特性以及訓(xùn)練樣本數(shù)量等諸多因素有關(guān)。?????例如,醫(yī)生對病人進(jìn)行診斷就是一個(gè)典型的分類過程,任何一個(gè)醫(yī)生都無法直接看到病人的病情,只能觀察病人表現(xiàn)出的癥狀和各種化驗(yàn)檢測數(shù)據(jù)來推斷病情,這時(shí)醫(yī)生就好比一個(gè)分類器,而這個(gè)醫(yī)生診斷的準(zhǔn)確率,與他當(dāng)初受到的教育方式(構(gòu)造方法)、病人的癥狀是否突出(待分類數(shù)據(jù)的特性)以及醫(yī)生的經(jīng)驗(yàn)多少(訓(xùn)練樣本數(shù)量)都有密切關(guān)系。1.3、貝葉斯分類的基礎(chǔ)——貝葉斯定理?????每次提到貝葉斯定理,我心中的崇敬之情都油然而生,倒不是因?yàn)檫@個(gè)定理多高深,而是因?yàn)樗貏e有用。這
4、個(gè)定理解決了現(xiàn)實(shí)生活里經(jīng)常遇到的問題:已知某條件概率,如何得到兩個(gè)事件交換后的概率,也就是在已知P(A
5、B)的情況下如何求得P(B
6、A)。這里先解釋什么是條件概率:表示事件B已經(jīng)發(fā)生的前提下,事件A發(fā)生的概率,叫做事件B發(fā)生下事件A的條件概率。其基本求解公式為:。?????貝葉斯定理之所以有用,是因?yàn)槲覀冊谏钪薪?jīng)常遇到這種情況:我們可以很容易直接得出P(A
7、B),P(B
8、A)則很難直接得出,但我們更關(guān)心P(B
9、A),貝葉斯定理就為我們打通從P(A
10、B)獲得P(B
11、A)的道路。?????下面不加證明地直接給出貝葉斯定理:??????1.4、樸素貝葉斯分類1.
12、4.1、樸素貝葉斯分類的原理與流程?????樸素貝葉斯分類是一種十分簡單的分類算法,叫它樸素貝葉斯分類是因?yàn)檫@種方法的思想真的很樸素,樸素貝葉斯的思想基礎(chǔ)是這樣的:對于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,哪個(gè)最大,就認(rèn)為此待分類項(xiàng)屬于哪個(gè)類別。通俗來說,就好比這么個(gè)道理,你在街上看到一個(gè)黑人,我問你你猜這哥們哪里來的,你十有八九猜非洲。為什么呢?因?yàn)楹谌酥蟹侵奕说谋嚷首罡?,?dāng)然人家也可能是美洲人或亞洲人,但在沒有其它可用信息下,我們會選擇條件概率最大的類別,這就是樸素貝葉斯的思想基礎(chǔ)。?????樸素貝葉斯分類的正式定義如下:?????1
13、、設(shè)為一個(gè)待分類項(xiàng),而每個(gè)a為x的一個(gè)特征屬性。?????2、有類別集合。?????3、計(jì)算。?????4、如果,則。?????那么現(xiàn)在的關(guān)鍵就是如何計(jì)算第3步中的各個(gè)條件概率。我們可以這么做:?????1、找到一個(gè)已知分類的待分類項(xiàng)集合,這個(gè)集合叫做訓(xùn)練樣本集。?????2、統(tǒng)計(jì)得到在各類別下各個(gè)特征屬性的條件概率估計(jì)。即???????????。?????3、如果各個(gè)特征屬性是條件獨(dú)立的,則根據(jù)貝葉斯定理有如下推導(dǎo):???????????????因?yàn)榉帜笇τ谒蓄悇e為常數(shù),因?yàn)槲覀冎灰獙⒎肿幼畲蠡钥伞S忠驗(yàn)楦魈卣鲗傩允菞l件獨(dú)立的,所以有:????????
14、???????根據(jù)上述分析,樸素貝葉斯分類的流程可以由下圖表示(暫時(shí)不考慮驗(yàn)證):?????可以看到,整個(gè)樸素貝葉斯分類分為三個(gè)階段:?????第一階段——準(zhǔn)備工作階段,這個(gè)階段的任務(wù)是為樸素貝葉斯分類做必要的準(zhǔn)備,主要工作是根據(jù)具體情況確定特征屬性,并對每個(gè)特征屬性進(jìn)行適當(dāng)劃分,然后由人工對一部分待分類項(xiàng)進(jìn)行分類,形成訓(xùn)練樣本集合。這一階段的輸入是所有待分類數(shù)據(jù),輸出是特征屬性和訓(xùn)練樣本。這一階段是整個(gè)樸素貝葉斯分類中唯一需要人工完成的階段,其質(zhì)量對整個(gè)過程將有重要影響,分類器的質(zhì)量很大程度上由特征屬性、特征屬性劃分及訓(xùn)練樣本質(zhì)量決定。?????第二階段—
15、—分類器訓(xùn)練階段,這個(gè)階段的任務(wù)就是生成分類器,主要