資源描述:
《基于貝葉斯方法的高考成績類別預(yù)測》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、第8卷第2期太原師范學(xué)院學(xué)報(自然科學(xué)版)Vol.8No.22009年6月JOURNALOFTAIYUANNORMALUNIVERSITY(NaturalScienceEdition)Jun.20093基于貝葉斯方法的高考成績類別預(yù)測張瓊(華南理工大學(xué)理學(xué)院,廣東廣州510640)〔摘要〕貝葉斯分類方法不同于其他統(tǒng)計分類方法,它不僅利用了數(shù)據(jù)信息,而且充分利用了樣品的先驗信息.利用貝葉斯網(wǎng)絡(luò)分類原理,并借助clementine12.0這一軟件,對某高中的新生三年后的高考成績類別進行預(yù)測,有利于改善學(xué)校的招生政策.〔關(guān)鍵詞〕貝葉斯分類;TAN分類器;條件概率〔文
2、章編號〕167222027(2009)0220041203〔中圖分類號〕O212〔文獻標識碼〕A學(xué)生的中考成績往往是各高中招生的唯一指標,只要成績達到中學(xué)的錄取分數(shù)線就會被錄取.然而這一錄取方式存在著許多缺陷和問題,例如,甲學(xué)生和乙學(xué)生中考成績相差不多,但甲物理、數(shù)學(xué)成績高,且是應(yīng)屆學(xué)生,乙各科成績一般,是往屆學(xué)生.那么這兩個學(xué)生究竟哪個比較優(yōu)秀,哪個學(xué)生會在三年的高考中發(fā)揮出色?貝葉斯分類是統(tǒng)計學(xué)分類方法,它可以通過給定的訓(xùn)練樣本集預(yù)測未知樣本的類別.本文根據(jù)貝葉斯網(wǎng)絡(luò)分類來預(yù)測某中學(xué)所要錄取的學(xué)生三年后的高考狀況.1貝葉斯分類器模型1.1貝葉斯分類定理及分
3、類方法貝葉斯分類是統(tǒng)計學(xué)分類方法.它們可以預(yù)測類成員關(guān)系的可能性,如給定樣本屬于一人特定類的概率.分類算法的比較研究發(fā)現(xiàn),貝葉斯分類算法可以與判定樹和神經(jīng)網(wǎng)絡(luò)分類算法相媲美.用于大型數(shù)據(jù)庫,貝葉斯分類也已表現(xiàn)出高準確率和高速度.貝葉斯分類器是基于貝葉斯定理的.設(shè)X是類標號未知的數(shù)據(jù)樣本,設(shè)H為某種假定,如數(shù)據(jù)樣本X屬于某特定的類C.對于分類問題,我們要確定P(H
4、X),即給定觀測數(shù)據(jù)樣本X,假定H成立的概率,P(H
5、X)是后驗概率,或條件X下H的后驗概率.P(X)、P(H)、P(H
6、X)都可以由給定的數(shù)據(jù)計算,貝葉斯定理是:[1]P(H
7、X)=P(X
8、H)P(
9、H)P(X).1.2樸素貝葉斯分類模型樸素貝葉斯分類假定一個屬性值對給定分類的影響?yīng)毩⒂谄渌麑傩缘闹?簡單的樸素貝葉斯分類模型(NBC)如圖1所示.圖1樸素貝葉斯分類模型Fig.1StructureofanaiveBayesmodel3收稿日期:2009201216作者簡介:張瓊(19852),女,山西霍州人,華南理工大學(xué)在讀碩士研究生,主要從事數(shù)理統(tǒng)計及其應(yīng)用研究.42太原師范學(xué)院學(xué)報(自然科學(xué)版)第8卷C表示類別變量,A表示屬性變量,假定有m個屬性變量,分別為A1,A2,?,Am.假定有n個類,那么C的值域為{c1,c2,?,cn}.其中樸素貝葉斯分類的工
10、作過程如下:1)每個數(shù)據(jù)樣本用一個m維特征向量X={X1,X2,?,Xm}表示,分別描述對m個屬性A1,A2,?,Am樣本的m度量.2)給定一個未知的數(shù)據(jù)樣本x,分類法將預(yù)測X屬于具有最高后驗概率(條件X下)的類.也就是說,樸素貝葉斯分類將未知的樣本分配給類ci,當且僅當P(ci
11、x)>P(cj
12、x),1≤j≤m,j≠i根據(jù)貝葉斯定理,可得P(X
13、cj)P(cj)P(cj
14、X)=.P(x)3)由于P(X)對于所有類為常數(shù),只需要P(x
15、cj)P(cj)最大即可.4)給定具有許多屬性的數(shù)據(jù)集,P(x
16、cj)的計算量可能非常大.給定樣本的類標號,假定屬性值相互條件
17、獨立,即A1,A2,?,Am獨立,那么mP(x
18、ci)=∏P(xk
19、ci)k=1概率P(x1
20、ci),P(x2
21、ci),?,P(xm
22、ci)可以由訓(xùn)練樣本估值.5)若對未知樣本x分類,對每個類計算P(x
23、ci)P(ci).[2]當P(X
24、ci)P(ci)≥P(X
25、cj)P(cj),1≤j≤m,j≠i,樣本X被指派到類ci.1.3貝葉斯TAN分類器模型TAN分類器是樸素貝葉斯分類器的一種改進模型,它放松樸素貝葉斯分類器中的獨立性假設(shè)條件,即其屬性間存在相互依賴關(guān)系.往往數(shù)學(xué)成績好的物理成績也比較高,這就屬于貝葉斯TAN分類器,下面我們就利用貝葉斯TAN分類器來對
26、學(xué)生的高考成績類別進行預(yù)測.2利用數(shù)據(jù)建立貝葉斯分類模型現(xiàn)有某一高中學(xué)生的入學(xué)資料,包括姓名,性別,年齡,考生類別(應(yīng)往屆),畢業(yè)學(xué)校,中考成績(數(shù)學(xué),語文,英語,物理,化學(xué),政治,體育,總分),還有其高考成績.我們可以把高考成績分為三類(未達線0,達一本線1,達二本線2).由于姓名,畢業(yè)學(xué)校,年齡對高考成績幾乎沒有影響,所以不考慮這三個屬性.我們設(shè)置十個變量,其中屬性變量分別是性別,考生類別、數(shù)學(xué)、語文、英語、物理、化學(xué)、政治、體育,類別變量是高考成績類別(未達線0,達一本線1,達二本線2).[3]原始數(shù)據(jù)是excel格式,在clementine12.0中添
27、加excel源節(jié)點,把類別變量設(shè)置為輸