樸素貝葉斯python代碼實(shí)現(xiàn)

樸素貝葉斯python代碼實(shí)現(xiàn)

ID:8842757

大小:364.02 KB

頁數(shù):8頁

時(shí)間:2018-04-09

樸素貝葉斯python代碼實(shí)現(xiàn)_第1頁
樸素貝葉斯python代碼實(shí)現(xiàn)_第2頁
樸素貝葉斯python代碼實(shí)現(xiàn)_第3頁
樸素貝葉斯python代碼實(shí)現(xiàn)_第4頁
樸素貝葉斯python代碼實(shí)現(xiàn)_第5頁
資源描述:

《樸素貝葉斯python代碼實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。

1、樸素貝葉斯優(yōu)點(diǎn):在數(shù)據(jù)較少的情況下仍然有效,可以處理多類別問題缺點(diǎn):對于輸入數(shù)據(jù)的準(zhǔn)備方式較為敏感適用數(shù)據(jù)類型:標(biāo)稱型數(shù)據(jù)?貝葉斯準(zhǔn)則:使用樸素貝葉斯進(jìn)行文檔分類?樸素貝葉斯的一般過程(1)收集數(shù)據(jù):可以使用任何方法。本文使用RSS源(2)準(zhǔn)備數(shù)據(jù):需要數(shù)值型或者布爾型數(shù)據(jù)(3)分析數(shù)據(jù):有大量特征時(shí),繪制特征作用不大,此時(shí)使用直方圖效果更好(4)訓(xùn)練算法:計(jì)算不同的獨(dú)立特征的條件概率(5)測試算法:計(jì)算錯(cuò)誤率(6)使用算法:一個(gè)常見的樸素貝葉斯應(yīng)用是文檔分類。可以在任意的分類場景中使用樸素貝葉斯分類器,不一定非要是文本。?準(zhǔn)備數(shù)據(jù):從文本中構(gòu)建詞向

2、量?摘自機(jī)器學(xué)習(xí)實(shí)戰(zhàn)。[['my','dog','has','flea','problems','help','please'],0['maybe','not','take','him','to','dog','park','stupid'],1['my','dalmation','is','so','cute','I','love','him'],0['stop','posting','stupid','worthless','garbage'],1['mr','licks','ate','my','steak','how','to','stop'

3、,'him'],0['quit','buying','worthless','dog','food','stupid']]1以上是六句話,標(biāo)記是0句子的表示正常句,標(biāo)記是1句子的表示為粗口。我們通過分析每個(gè)句子中的每個(gè)詞,在粗口句或是正常句出現(xiàn)的概率,可以找出那些詞是粗口。在bayes.py文件中添加如下代碼:[python]?viewplaincopy1.#?coding=utf-8??2.??3.def?loadDataSet():??4.????postingList?=?[['my',?'dog',?'has',?'flea',?'probl

4、ems',?'help',?'please'],??5.????['maybe',?'not',?'take',?'him',?'to',?'dog',?'park',?'stupid'],??6.????['my',?'dalmation',?'is',?'so',?'cute',?'I',?'love',?'him'],??7.????['stop',?'posting',?'stupid',?'worthless',?'garbage'],??8.????['mr',?'licks',?'ate',?'my',?'steak',?'how',?

5、'to',?'stop',?'him'],??9.????['quit',?'buying',?'worthless',?'dog',?'food',?'stupid']]??10.????classVec?=?[0,?1,?0,?1,?0,?1]??#?1代表侮辱性文字,0代表正常言論??11.????return?postingList,?classVec??12.??13.def?createVocabList(dataSet):??14.????vocabSet?=?set([])??15.????for?document?in?dataSe

6、t:??16.????????vocabSet?=?vocabSet?

7、?set(document)??17.????return?list(vocabSet)??18.??19.def?setOfWords2Vec(vocabList,?inputSet):??20.????returnVec?=?[0]?*?len(vocabList)??21.????for?word?in?inputSet:??22.????????if?word?in?vocabList:??23.????????????returnVec[vocabList.index(

8、word)]?=?1??24.????????else:??25.????????????print?"the?word:?%s?is?not?in?my?Vocabulary!"?%?word??26.????return?returnVec??運(yùn)行結(jié)果:???訓(xùn)練算法:從詞向量計(jì)算概率[python]?viewplaincopy1.#?樸素貝葉斯分類器訓(xùn)練函數(shù)????2.#?trainMatrix:?文檔矩陣,??trainCategory:?由每篇文檔類別標(biāo)簽所構(gòu)成的向量??3.def?trainNB0(trainMatrix,?trainCa

9、tegory):??4.????numTrainDocs?=?len(trainMatrix)??5.???

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。