資源描述:
《基于貝葉斯的文本分類.doc》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、南京理工大學經濟管理學院課程作業(yè)課程名稱:本文信息處理作業(yè)題目:基于樸素貝葉斯實現文本分類姓名:趙華學號:114107000778成績:任課教師評語:簽名:年月日基于樸素貝葉斯實現文本分類摘要貝葉斯分類是一類分類算法的總稱,這類算法均以貝葉斯定理為基礎,故統稱為貝葉斯分類。本文作為分類算法的第一篇,將首先介紹分類問題,對分類問題進行一個正式的定義。然后,介紹貝葉斯分類算法的基礎——貝葉斯定理。最后,通過實例討論貝葉斯分類中最簡單的一種:樸素貝葉斯分類。關鍵詞社區(qū)發(fā)現標簽傳播算法社會網絡分析社區(qū)結構1引言數據挖掘在上個世紀末在數據的智能分析
2、技術上得到了廣泛的應用。分類作為數據挖掘中一項非常重要的任務,目前在商業(yè)上應用很多。分類的目的是學會一個分類函數或分類模型(也常常稱作分類器),該分類器可以將數據集合中的數據項映射到給定類別中的某一個,從而可以用于后續(xù)數據的預測和狀態(tài)決策。目前,分類方法的研究成果較多,判別方法的好壞可以從三個方面進行:1)預測準確度,對非樣本數據的判別準確度;2)計算復雜度,方法實現時對時間和空間的復雜度;3)模式的簡潔度,在同樣效果情況下,希望決策樹小或規(guī)則少。分類是數據分析和機器學習領域的基本問題。沒有一個分類方法在對所有數據集上進行分類學習均是最優(yōu)
3、的。從數據中學習高精度的分類器近年來一直是研究的熱點。各種不同的方法都可以用來學習分類器。例如,人工神經元網絡[1]、決策樹[2]、非參數學習算法[3]等等。與其他精心設計的分類器相比,樸素貝葉斯分類器[4]是學習效率和分類效果較好的分類器之一。樸素貝葉斯方法,是目前公認的一種簡單有效的分類方法,它是一種基于概率的分類方法,被廣泛地應用于模式識別、自然語言處理、機器人導航、規(guī)劃、機器學習以及利用貝葉斯網絡技術構建和分析軟件系統。2貝葉斯分類2.1分類問題綜述對于分類問題,其實誰都不會陌生,說我們每個人每天都在執(zhí)行分類操作一點都不夸張,只是
4、我們沒有意識到罷了。例如,當你看到一個陌生人,你的腦子下意識判斷TA是男是女;你可能經常會走在路上對身旁的朋友說“這個人一看就很有錢、那邊有個非主流”之類的話,其實這就是一種分類操作。從數學角度來說,分類問題可做如下定義:已知集合:和,確定映射規(guī)則,使得任意有且僅有一個使得成立。(不考慮模糊數學里的模糊集情況)其中C叫做類別集合,其中每一個元素是一個類別,而I叫做項集合,其中每一個元素是一個待分類項,f叫做分類器。分類算法的任務就是構造分類器f。這里要著重強調,分類問題往往采用經驗性方法構造映射規(guī)則,即一般情況下的分類問題缺少足夠的信息來
5、構造100%正確的映射規(guī)則,而是通過對經驗數據的學習從而實現一定概率意義上正確的分類,因此所訓練出的分類器并不是一定能將每個待分類項準確映射到其分類,分類器的質量與分類器構造方法、待分類數據的特性以及訓練樣本數量等諸多因素有關。例如,醫(yī)生對病人進行診斷就是一個典型的分類過程,任何一個醫(yī)生都無法直接看到病人的病情,只能觀察病人表現出的癥狀和各種化驗檢測數據來推斷病情,這時醫(yī)生就好比一個分類器,而這個醫(yī)生診斷的準確率,與他當初受到的教育方式(構造方法)、病人的癥狀是否突出(待分類數據的特性)以及醫(yī)生的經驗多少(訓練樣本數量)都有密切關系。2.
6、2貝葉斯分類的基礎——貝葉斯定理貝葉斯定理解決了現實生活里經常遇到的問題:已知某條件概率,如何得到兩個事件交換后的概率,也就是在已知P(A
7、B)的情況下如何求得P(B
8、A)。這里先解釋什么是條件概率:表示事件B已經發(fā)生的前提下,事件A發(fā)生的概率,叫做事件B發(fā)生下事件A的條件概率。其基本求解公式為:貝葉斯定理之所以有用,是因為我們在生活中經常遇到這種情況:我們可以很容易直接得出P(A
9、B),P(B
10、A)則很難直接得出,但我們更關心P(B
11、A),貝葉斯定理就為我們打通從P(A
12、B)獲得P(B
13、A)的道路。貝葉斯定理公式如下:2.3樸素貝葉斯分
14、類的原理與流程樸素貝葉斯分類是一種十分簡單的分類算法,叫它樸素貝葉斯分類是因為這種方法的思想真的很樸素,樸素貝葉斯的思想基礎是這樣的:對于給出的待分類項,求解在此項出現的條件下各個類別出現的概率,哪個最大,就認為此待分類項屬于哪個類別。通俗來說,就好比這么個道理,你在街上看到一個黑人,我問你你猜這哥們哪里來的,你十有八九猜非洲。為什么呢?因為黑人中非洲人的比率最高,當然人家也可能是美洲人或亞洲人,但在沒有其它可用信息下,我們會選擇條件概率最大的類別,這就是樸素貝葉斯的思想基礎。樸素貝葉斯分類的正式定義如下:1、設為一個待分類項,而每個a為
15、x的一個特征屬性。2、有類別集合。3、計算。4、如果,則。那么現在的關鍵就是如何計算第3步中的各個條件概率。我們可以這么做:1、找到一個已知分類的待分類項集合,這個集合叫做訓練樣本集。2、統計