資源描述:
《樸素貝葉斯分類模型的改進(jìn)研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、廈門大學(xué)學(xué)位論文原創(chuàng)性聲明本人呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下,獨(dú)立完成的研究成果。本人在論文寫作中參考其他個(gè)人或集體已經(jīng)發(fā)表的研究成果,均在文中以適當(dāng)方式明確標(biāo)明,并符合法律規(guī)范和《廈門大學(xué)研究生學(xué)術(shù)活動(dòng)規(guī)范(試行)》。另外,該學(xué)位論文為()課題(組)的研究成果,獲得()課題(組)經(jīng)費(fèi)或?qū)嶒?yàn)室的資助,在()實(shí)驗(yàn)室完成。(請(qǐng)?jiān)谝陨侠ㄌ?hào)內(nèi)填寫課題或課題組負(fù)責(zé)人或?qū)嶒?yàn)室名稱,未有此項(xiàng)聲明內(nèi)容的,可以不作特別聲明。)聲明人(簽名):糖也動(dòng)l牛年歹月7≯日廈門大學(xué)學(xué)位論燃權(quán)使用聲明f㈣本人同意廈門大學(xué)根據(jù)《中華人民共和國學(xué)位條例暫行實(shí)施辦法》等規(guī)定保留和使用此學(xué)位論文
2、,并向主管部門或其指定機(jī)構(gòu)送交學(xué)位論文(包括紙質(zhì)版和電子版),允許學(xué)位論文進(jìn)入廈門大學(xué)圖書館及其數(shù)據(jù)庫被查閱、借閱。本人同意廈門大學(xué)將學(xué)位論文加入全國博士、碩士學(xué)位論文共建單位數(shù)據(jù)庫進(jìn)行檢索,將學(xué)位論文的標(biāo)題和摘要匯編出版,采用影印、縮印或者其它方式合理復(fù)制學(xué)位論文。本學(xué)位論文屬于:()1.經(jīng)廈門大學(xué)保密委員會(huì)審查核定的保密學(xué)位論文,于年月日解密,解密后適用上述授權(quán)。(√)2.不保密,適用上述授權(quán)。(請(qǐng)?jiān)谝陨舷鄳?yīng)括號(hào)內(nèi)打“√”或填上相應(yīng)內(nèi)容。保密學(xué)位論文應(yīng)是已經(jīng)廈門大學(xué)保密委員會(huì)審定過的學(xué)位論文,未經(jīng)廈門大學(xué)保密委員會(huì)審定的學(xué)位論文均為公開學(xué)位論文。此聲明欄不
3、填寫的,默認(rèn)為公開學(xué)位論文,均適用上述授權(quán)。)聲明人(簽名):聾礤月劫lv年廠月/三日摘要分類是數(shù)據(jù)挖掘中的一個(gè)重要課題。分類的目的是為了構(gòu)造出一個(gè)分類函數(shù)或者分類模型,這個(gè)模型可以將數(shù)據(jù)庫中對(duì)應(yīng)的數(shù)據(jù)項(xiàng)映射到一個(gè)給定的類。數(shù)據(jù)挖掘的分類一般用在提取描述重要數(shù)據(jù)類的模型或者預(yù)測未來數(shù)據(jù)趨勢(shì)。樸素貝葉斯分類模型是當(dāng)前分類算法的研究熱點(diǎn)之一,它具有結(jié)構(gòu)不復(fù)雜、分類精度高和速度快等優(yōu)點(diǎn)。運(yùn)用該模型進(jìn)行分類的原理是利用訓(xùn)練集構(gòu)造出一個(gè)分類模型,如果訓(xùn)練集中有存在噪聲實(shí)例,那么它會(huì)降低分類器的性能。本文以優(yōu)化訓(xùn)練集為研究內(nèi)容,探討了基于單屬性有效度和結(jié)合雙屬性有效度的樸
4、素貝葉斯分類改進(jìn)模型,通過自定義的單屬性有效度和雙屬性有效度淘汰數(shù)據(jù)集中的噪聲樣本,從而實(shí)現(xiàn)訓(xùn)練集優(yōu)化,提高分類準(zhǔn)確率的目標(biāo)。本文主要工作如下:1、介紹了貝葉斯分類的基本理論和樸素貝葉斯分類模型。2、對(duì)幾種常用的改進(jìn)樸素貝葉斯分類模型進(jìn)行分析:樹擴(kuò)展型貝葉斯分類模型、半樸素貝葉斯分類模型、貝葉斯信念網(wǎng)絡(luò)分類模型。3、在使用訓(xùn)I練集構(gòu)建分類器前,基于貝葉斯理論的思想,以單屬性為研究對(duì)象,通過自定義的單屬性有效度淘汰訓(xùn)練集中的噪聲實(shí)例,實(shí)現(xiàn)訓(xùn)練集的優(yōu)化。4、在基于單屬性有效度的改進(jìn)模型的前提上,結(jié)合雙屬性有效度,發(fā)現(xiàn)和淘汰訓(xùn)練集中存在的更多噪聲樣本,進(jìn)一步優(yōu)化訓(xùn)練
5、集?;诖笠?guī)模數(shù)據(jù)及大量的實(shí)驗(yàn)結(jié)果表明:本文提出的改進(jìn)方法是可行的,而且能有效的提高分類的準(zhǔn)確率。關(guān)鍵詞:樸素貝葉斯分類模型;單屬性有效度;雙屬性有效度AbstractClassificationisartimportanttaskofdatamining.Thepurposeofclassificationistoconstructaclassificationfunctionorclassificationmodel,whichcanmaptheunclassifiedsampleinthedatabasetoagivenclass.Classificat
6、ioncanbeusedtoextractamodelwhichdescribesimportantdataorpredictsthetrendofdata.NaiveBayesclassificationmodelisoneoftheresearchhotspotsincurrentclassificationalgorithms,andcompared謝thothermethods,NaiveBayesclassificationmodelownsfeaturesofsimplestructure,highclassificationaccuracyand
7、highspeed,etc.TrainingsetisusedinNaiveBayesclassificationmodeltobuildaclassificationmodel,andiftherearenoisesamplesinthetrainingset,theperformanceoftheclassificationwillbereduced.Takenoptimizingthetrainingsetasresearchcomem,improvedNaiveBayesclassificationmodelbasedonvalidityofsingl
8、eattribmeandcombine