資源描述:
《基于決策樹技術(shù)的數(shù)據(jù)挖掘的應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、基于決策樹技術(shù)的數(shù)據(jù)挖掘的應(yīng)用 摘要數(shù)據(jù)挖掘技術(shù)對于處理還有大量數(shù)據(jù)的數(shù)據(jù)集具有十分重要的作用,而對于數(shù)據(jù)的分類中,我們常常使用決策樹分類法。該方法被廣泛用于處理數(shù)據(jù)的分類問題.決策樹分類法在我們的生產(chǎn)、生活、學(xué)習(xí)等數(shù)據(jù)挖掘中具有十分重要的作用,它是數(shù)據(jù)挖掘中進行預(yù)測和分類研究的主要技術(shù)?! 娟P(guān)鍵詞】數(shù)據(jù)挖掘決策樹分類 數(shù)據(jù)挖掘中的分類任務(wù)主要是為了確定對象屬于哪個預(yù)定義的目標(biāo)類。在我們的日常生活中,這一問題普遍存在,例如我們會根據(jù)需要來檢查接受到的電子郵件是否為垃圾郵件。在數(shù)據(jù)挖掘中的所有分類方法里,決策樹分類法是一種最為簡單且被廣
2、泛使用的分類方法。 1決策樹分類法的工作原理 決策樹是一種由結(jié)點和有向邊組成的層次結(jié)構(gòu),它主要有根節(jié)點、內(nèi)部結(jié)點和葉結(jié)點構(gòu)成。當(dāng)我們分析一個分類實例時可以先去建立一個決策樹,根據(jù)決策樹分類,從決策樹的根節(jié)點開始,將測試的條件用于記錄的檢驗,根據(jù)測試結(jié)果選擇相應(yīng)的分支到達另一個內(nèi)部節(jié)點,經(jīng)過一個新的選擇條件或者選擇相應(yīng)的分支到達一個葉節(jié)點。最終都會到達一個葉節(jié)點,這一葉節(jié)點的類別即為被賦值給此檢驗記錄的?! ?決策樹的建立過程 人們開發(fā)了一些決策樹構(gòu)造算法,主要采用的是貪吃算法的思想,利用局部最優(yōu)的方法來建立決策樹。算法分為兩步,第一步
3、,決策樹的生成過程。第二步,決策樹的剪枝,如圖1所示?! ?決策樹構(gòu)造算法 ?。?)導(dǎo)入決策樹構(gòu)造過程中所需要的函數(shù)庫; ?。?)查看需要構(gòu)造決策樹的源數(shù)據(jù); ?。?)通過rpart函數(shù)構(gòu)造一個決策樹; ?。?)查看決策樹的一些具體的信息和內(nèi)容; (5)繪制出決策樹圖; (6)對決策樹進行適當(dāng)?shù)募糁?,防止過擬合,使得樹能夠較好地反映數(shù)據(jù)內(nèi)在的規(guī)律并在實際應(yīng)用中有意義; ?。?)對剪枝后的決策樹圖進行繪制,得到最終的決策樹,對其進行相應(yīng)分析和研究。 4決策樹技術(shù)在職業(yè)院校學(xué)生的成績分析中的研究與應(yīng)用 4.1決策樹技術(shù)在職業(yè)院校學(xué)生的成
4、績分析中的研究與應(yīng)用的意義 現(xiàn)如今,國家開始越來越重視職業(yè)教育,各個職業(yè)院校開始不斷的擴大招生的規(guī)模,越來越多的學(xué)生開始選擇進入職業(yè)院校去學(xué)習(xí)一門扎實的技術(shù)。這些改變不僅了影響了傳統(tǒng)的招生模式,也影響了教師對學(xué)生的成績的評定方法。對于職業(yè)院校的學(xué)生的成績并不能單純通過考試的分?jǐn)?shù)來評定學(xué)生的學(xué)習(xí)水平,而是要綜合考量學(xué)生的知識和技能水平。不少職業(yè)院校開始使用數(shù)據(jù)挖掘技術(shù)分析學(xué)生的學(xué)習(xí)成績,這不僅可以對學(xué)生的學(xué)業(yè)水平做出更科學(xué)的評定,而且對提高教學(xué)管理水平起到了很好的指導(dǎo)作用?! ?.2決策樹技術(shù)在職業(yè)院校學(xué)生的成績分析中的研究與應(yīng)用的過程
5、4.2.1確定數(shù)據(jù)挖掘的對象及挖掘的目標(biāo) 本文對數(shù)據(jù)挖掘中的分類技術(shù)的研究,利用的是某校動畫設(shè)計班的Flash動畫制作課程的期末考試成績。通過決策樹技術(shù),找到對于學(xué)生成績的主要影響要素,對教師的教學(xué)及學(xué)校的管理提供相應(yīng)的幫助?! ?.2.2數(shù)據(jù)的收集與預(yù)處理 我們將所要使用的數(shù)據(jù)進行收集和整理,其中包括了20名學(xué)生的學(xué)號、出勤情況、上機作業(yè)的完成情況、成績、試卷難易、興趣。部分?jǐn)?shù)據(jù)如表1所示?! ?.2.3算法的選定 通過分析成績數(shù)據(jù)的特點,此次研究我們將采用決策樹技術(shù)中的ID3算法來建立決策樹?! 〉谝徊剑嬎沆亍 ∪握n教師對學(xué)生的
6、成績評定結(jié)果中等級為A的共有8人,等級為B的共有7人,等級為C的共有5人。我們把樣本數(shù)據(jù)S記為S1=8,S2=7,S3=5,計算熵?! nfo(S)==0.469 第二步,計算信息增益 學(xué)生的出勤情況中,出勤較好等級為A的有7名同學(xué),其中有5個測試成績?yōu)锳,2個為B;出勤為B的有10個同學(xué),其中有3個成績?yōu)锳,5個成績?yōu)锽,2個成績?yōu)镃;出勤為C的有3個,成績均為C。計算熵: Info(A)=0.26 Info(B)==0.447 Info(S)==0 計算增益: Gain(出勤)=Info(S)-(7/20)*Info(A
7、)-(10/20)*Info(B)-(3/20)*Info(C)=0.15 以上機作業(yè)作為根的決策樹的熵和增益: Info(A)=0.26 Info(B)==0.47 Info(C)=0.29 Gain(上機作業(yè))=Info(S)-(7/20)*Info(A)-(8/20)*Info(B)-(5/20)*Info(C)=0.118 以學(xué)生對于試卷難度的評定為根節(jié)點時: Info(高)==0.47 Info(中)==0.45 Info(低)=0.3 Gain(試卷難度)=Info(S)-(7/20)*Info(高)-(11
8、/20)*Info(中)-(2/20)*Info(低)=0.027 以學(xué)生興趣作為根節(jié)點時: Info(感興趣)==0.37 Info(一般)==0.42 Info(不感