基于決策樹技術(shù)的數(shù)據(jù)挖掘的應(yīng)用

基于決策樹技術(shù)的數(shù)據(jù)挖掘的應(yīng)用

ID:21498431

大小:25.50 KB

頁數(shù):5頁

時間:2018-10-22

基于決策樹技術(shù)的數(shù)據(jù)挖掘的應(yīng)用_第1頁
基于決策樹技術(shù)的數(shù)據(jù)挖掘的應(yīng)用_第2頁
基于決策樹技術(shù)的數(shù)據(jù)挖掘的應(yīng)用_第3頁
基于決策樹技術(shù)的數(shù)據(jù)挖掘的應(yīng)用_第4頁
基于決策樹技術(shù)的數(shù)據(jù)挖掘的應(yīng)用_第5頁
資源描述:

《基于決策樹技術(shù)的數(shù)據(jù)挖掘的應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、基于決策樹技術(shù)的數(shù)據(jù)挖掘的應(yīng)用  摘要數(shù)據(jù)挖掘技術(shù)對于處理還有大量數(shù)據(jù)的數(shù)據(jù)集具有十分重要的作用,而對于數(shù)據(jù)的分類中,我們常常使用決策樹分類法。該方法被廣泛用于處理數(shù)據(jù)的分類問題.決策樹分類法在我們的生產(chǎn)、生活、學(xué)習(xí)等數(shù)據(jù)挖掘中具有十分重要的作用,它是數(shù)據(jù)挖掘中進行預(yù)測和分類研究的主要技術(shù)?!  娟P(guān)鍵詞】數(shù)據(jù)挖掘決策樹分類  數(shù)據(jù)挖掘中的分類任務(wù)主要是為了確定對象屬于哪個預(yù)定義的目標(biāo)類。在我們的日常生活中,這一問題普遍存在,例如我們會根據(jù)需要來檢查接受到的電子郵件是否為垃圾郵件。在數(shù)據(jù)挖掘中的所有分類方法里,決策樹分類法是一種最為簡單且被廣

2、泛使用的分類方法。  1決策樹分類法的工作原理  決策樹是一種由結(jié)點和有向邊組成的層次結(jié)構(gòu),它主要有根節(jié)點、內(nèi)部結(jié)點和葉結(jié)點構(gòu)成。當(dāng)我們分析一個分類實例時可以先去建立一個決策樹,根據(jù)決策樹分類,從決策樹的根節(jié)點開始,將測試的條件用于記錄的檢驗,根據(jù)測試結(jié)果選擇相應(yīng)的分支到達另一個內(nèi)部節(jié)點,經(jīng)過一個新的選擇條件或者選擇相應(yīng)的分支到達一個葉節(jié)點。最終都會到達一個葉節(jié)點,這一葉節(jié)點的類別即為被賦值給此檢驗記錄的?! ?決策樹的建立過程  人們開發(fā)了一些決策樹構(gòu)造算法,主要采用的是貪吃算法的思想,利用局部最優(yōu)的方法來建立決策樹。算法分為兩步,第一步

3、,決策樹的生成過程。第二步,決策樹的剪枝,如圖1所示?! ?決策樹構(gòu)造算法 ?。?)導(dǎo)入決策樹構(gòu)造過程中所需要的函數(shù)庫; ?。?)查看需要構(gòu)造決策樹的源數(shù)據(jù); ?。?)通過rpart函數(shù)構(gòu)造一個決策樹; ?。?)查看決策樹的一些具體的信息和內(nèi)容;  (5)繪制出決策樹圖;  (6)對決策樹進行適當(dāng)?shù)募糁?,防止過擬合,使得樹能夠較好地反映數(shù)據(jù)內(nèi)在的規(guī)律并在實際應(yīng)用中有意義; ?。?)對剪枝后的決策樹圖進行繪制,得到最終的決策樹,對其進行相應(yīng)分析和研究。  4決策樹技術(shù)在職業(yè)院校學(xué)生的成績分析中的研究與應(yīng)用  4.1決策樹技術(shù)在職業(yè)院校學(xué)生的成

4、績分析中的研究與應(yīng)用的意義  現(xiàn)如今,國家開始越來越重視職業(yè)教育,各個職業(yè)院校開始不斷的擴大招生的規(guī)模,越來越多的學(xué)生開始選擇進入職業(yè)院校去學(xué)習(xí)一門扎實的技術(shù)。這些改變不僅了影響了傳統(tǒng)的招生模式,也影響了教師對學(xué)生的成績的評定方法。對于職業(yè)院校的學(xué)生的成績并不能單純通過考試的分?jǐn)?shù)來評定學(xué)生的學(xué)習(xí)水平,而是要綜合考量學(xué)生的知識和技能水平。不少職業(yè)院校開始使用數(shù)據(jù)挖掘技術(shù)分析學(xué)生的學(xué)習(xí)成績,這不僅可以對學(xué)生的學(xué)業(yè)水平做出更科學(xué)的評定,而且對提高教學(xué)管理水平起到了很好的指導(dǎo)作用?! ?.2決策樹技術(shù)在職業(yè)院校學(xué)生的成績分析中的研究與應(yīng)用的過程  

5、4.2.1確定數(shù)據(jù)挖掘的對象及挖掘的目標(biāo)  本文對數(shù)據(jù)挖掘中的分類技術(shù)的研究,利用的是某校動畫設(shè)計班的Flash動畫制作課程的期末考試成績。通過決策樹技術(shù),找到對于學(xué)生成績的主要影響要素,對教師的教學(xué)及學(xué)校的管理提供相應(yīng)的幫助?! ?.2.2數(shù)據(jù)的收集與預(yù)處理  我們將所要使用的數(shù)據(jù)進行收集和整理,其中包括了20名學(xué)生的學(xué)號、出勤情況、上機作業(yè)的完成情況、成績、試卷難易、興趣。部分?jǐn)?shù)據(jù)如表1所示?! ?.2.3算法的選定  通過分析成績數(shù)據(jù)的特點,此次研究我們將采用決策樹技術(shù)中的ID3算法來建立決策樹?! 〉谝徊剑嬎沆亍 ∪握n教師對學(xué)生的

6、成績評定結(jié)果中等級為A的共有8人,等級為B的共有7人,等級為C的共有5人。我們把樣本數(shù)據(jù)S記為S1=8,S2=7,S3=5,計算熵?! nfo(S)==0.469  第二步,計算信息增益  學(xué)生的出勤情況中,出勤較好等級為A的有7名同學(xué),其中有5個測試成績?yōu)锳,2個為B;出勤為B的有10個同學(xué),其中有3個成績?yōu)锳,5個成績?yōu)锽,2個成績?yōu)镃;出勤為C的有3個,成績均為C。計算熵:  Info(A)=0.26  Info(B)==0.447  Info(S)==0  計算增益:  Gain(出勤)=Info(S)-(7/20)*Info(A

7、)-(10/20)*Info(B)-(3/20)*Info(C)=0.15  以上機作業(yè)作為根的決策樹的熵和增益:  Info(A)=0.26  Info(B)==0.47  Info(C)=0.29  Gain(上機作業(yè))=Info(S)-(7/20)*Info(A)-(8/20)*Info(B)-(5/20)*Info(C)=0.118  以學(xué)生對于試卷難度的評定為根節(jié)點時:  Info(高)==0.47  Info(中)==0.45  Info(低)=0.3  Gain(試卷難度)=Info(S)-(7/20)*Info(高)-(11

8、/20)*Info(中)-(2/20)*Info(低)=0.027  以學(xué)生興趣作為根節(jié)點時:  Info(感興趣)==0.37  Info(一般)==0.42  Info(不感

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。