資源描述:
《采用數(shù)據(jù)挖掘技術(shù)中ID3決策樹算法分析學(xué)生成績(jī)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。
1、采用數(shù)據(jù)挖掘技術(shù)中ID3決策樹算法分析學(xué)生成績(jī)論文導(dǎo)讀:在學(xué)校管理工作中,特別是對(duì)學(xué)生的成績(jī)管理工作中,普遍存在的問題是學(xué)生成績(jī)數(shù)據(jù)量過于龐大,但對(duì)這些數(shù)據(jù)的處理還停留在初級(jí)的數(shù)據(jù)備份、查詢及簡(jiǎn)單統(tǒng)計(jì)階段,并沒有對(duì)大量的成績(jī)數(shù)據(jù)進(jìn)行深入地分析,加以捕捉有利于教學(xué)管理工作的信息,這是對(duì)教學(xué)信息資源極大的浪費(fèi)。數(shù)據(jù)挖掘技術(shù)正是解決這個(gè)問題的可行而有效的方法。本文使用ID3決策樹算法生成決策樹分析學(xué)生成績(jī)優(yōu)良與哪些因素有關(guān),并利用事后修剪法對(duì)決策樹進(jìn)行修剪,最后由決策樹產(chǎn)生分類規(guī)則。關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù),ID3決策樹算法,學(xué)生成
2、績(jī)1.引言當(dāng)前,職業(yè)技術(shù)教育隨著社會(huì)發(fā)展和科技進(jìn)步,其辦學(xué)軟硬件層次正逐步升級(jí),辦學(xué)規(guī)模和社會(huì)影響力也成倍增長(zhǎng)。在學(xué)校管理工作中,特別是對(duì)學(xué)生的成績(jī)管理工作中,普遍存在的問題是學(xué)生成績(jī)數(shù)據(jù)量過于龐大,但對(duì)這些數(shù)據(jù)的處理還停留在初級(jí)的數(shù)據(jù)備份、查詢及簡(jiǎn)單統(tǒng)計(jì)階段,并沒有對(duì)大量的成績(jī)數(shù)據(jù)進(jìn)行深入地分析,加以捕捉有利于教學(xué)管理工作的信息,這是對(duì)教學(xué)信息資源極大的浪費(fèi)。數(shù)據(jù)挖掘技術(shù)正是解決這個(gè)問題的可行而有效的方法。本文使用ID3決策樹算法生成決策樹分析學(xué)生成績(jī)優(yōu)良與哪些因素有關(guān),并利用事后修剪法對(duì)決策樹進(jìn)行修剪,最后由決策樹產(chǎn)生
3、分類規(guī)則。2.數(shù)據(jù)挖掘的方法和技術(shù)數(shù)據(jù)挖掘方法是由人工智能、機(jī)器學(xué)習(xí)的方法發(fā)展而來,結(jié)合傳統(tǒng)的統(tǒng)計(jì)分析方法、模糊數(shù)學(xué)方法及科學(xué)計(jì)算可視化技術(shù),以數(shù)據(jù)庫(kù)為研究對(duì)象,形成了數(shù)據(jù)挖掘的方法和技術(shù)。可分為以下六大類:歸納學(xué)習(xí)法、仿生物技術(shù)、公式發(fā)現(xiàn)、統(tǒng)計(jì)分析方法、模糊數(shù)學(xué)方法、可視化技術(shù)。信息論方法(決策樹方法)是歸納學(xué)習(xí)法中的一類。信息論方法是利用信息論的原理建立決策樹。在知識(shí)工程領(lǐng)域,決策樹是一種簡(jiǎn)單的知識(shí)表示方法,它將事例逐步分類成代表不同的類別。由于分類規(guī)則是比較直觀,易于理解,該類方法的實(shí)用效果好,影響較大。由于該方法最
4、后獲得知識(shí)表示形式是決策樹,故一般稱它為決策樹方法。這種方法一般用于分類任務(wù)中。決策樹是通過一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的過程。它提供一種在什么條件下會(huì)得到什么值的類似規(guī)則的方法。決策樹是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法。從一組無次序、無規(guī)則的元組中推理岀決策樹表示形式的分類規(guī)則。它采用自頂向下的遞歸方式,在決策樹的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性值的比較,并根據(jù)不同的屬性值從該節(jié)點(diǎn)向下分支,葉節(jié)點(diǎn)是要學(xué)習(xí)劃分的類。從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的一條路徑就對(duì)應(yīng)著一條分類規(guī)則,整個(gè)決策樹就對(duì)應(yīng)著一組析取表達(dá)式規(guī)則。信息論方法中較有特色的方法有:ID3,IBLE方
5、法。目前己形成了多種決策樹算法,女UCLS、ID3、CHAID、CART、FACT、C4.5、GINI,SEE5、SLIQ、SPRINT等。其中最著名的算法是Quinlan提出的ID3算法。2.決策樹的生成決策樹的生成分為學(xué)習(xí)及測(cè)試兩個(gè)階段。決策樹學(xué)習(xí)階段采用自頂向下的遞歸方式。決策樹算法分成兩個(gè)步驟:一是樹的生成,開始時(shí)所有數(shù)據(jù)都在根節(jié)點(diǎn),然后遞歸地進(jìn)行數(shù)據(jù)劃分,直至生成葉節(jié)點(diǎn)。二是樹的修剪,就是去掉一些可能是噪音或者異常的數(shù)據(jù)。決策樹停止分割的條件有:一個(gè)節(jié)點(diǎn)上的數(shù)據(jù)都是屬于同一個(gè)類別;沒有屬性可以再用于對(duì)數(shù)據(jù)進(jìn)行分割
6、。建立一顆決策樹可能只要對(duì)數(shù)據(jù)庫(kù)進(jìn)行幾遍掃描之后就能完成,這也意味著需要的計(jì)算資源較少,而且可以很容易的處理包含很多預(yù)測(cè)變量的情況,因此決策樹模型可以建立得很快,并適合應(yīng)用到大量的數(shù)據(jù)上。3.ID3算法決策樹歸納的基本算法是貪心算法,它以自頂向下遞歸的方法構(gòu)造決策樹。著名的決策樹歸納算法ID3算法的基本策略如下:?樹以代表訓(xùn)練樣本的單個(gè)節(jié)點(diǎn)開始。?如果樣本都在同一個(gè)類中,則這個(gè)節(jié)點(diǎn)成為樹葉節(jié)點(diǎn),并用該類標(biāo)記。?否則,算法使用稱為信息增益的基于爛的度量作為啟發(fā)信息,選擇能夠最好的將樣本分類的屬性,該屬性成為該節(jié)點(diǎn)的測(cè)試或判定
7、屬性。在這里,我們假設(shè)所有的屬性都是分類的,即取離散值。連續(xù)值的屬性必須離散化。?對(duì)測(cè)試屬性的每個(gè)已知的值創(chuàng)建一個(gè)分支,并據(jù)此劃分樣本。?算法使用類似的方法,遞歸地形成每個(gè)劃分上的樣本決策樹。一旦一個(gè)屬性出現(xiàn)在一個(gè)節(jié)點(diǎn)上,就不必在該節(jié)點(diǎn)的后代上考慮這個(gè)屬性。?整個(gè)遞歸過程在下列條件之一成立時(shí)停止:(1)給定節(jié)點(diǎn)的所有樣本屬于同一類。(2)沒有剩余屬性可以用來進(jìn)一步劃分樣本,這時(shí)候?qū)⒃摴?jié)點(diǎn)作為樹葉,并用剩余樣本中所出現(xiàn)最多的類型作為葉子節(jié)點(diǎn)的類型。(3)某一分枝沒有樣本,在這種情況下,以訓(xùn)練樣本集中占多數(shù)的類創(chuàng)建一個(gè)樹葉。但
8、是,ID3算法也存在著如下不足:(1)不能夠處理連續(xù)值屬性,ID3算法最初定義時(shí)是假設(shè)所有屬性值是離散的,但在現(xiàn)實(shí)環(huán)境中,很多屬性值是連續(xù)的。(2)計(jì)算信息增益時(shí)偏向于選擇取值較多的屬性,這樣不太合理。(3)對(duì)噪聲較為敏感,所謂噪聲是指訓(xùn)練集中屬性值或類別給錯(cuò)的數(shù)據(jù)。(4)在構(gòu)造樹的過程中,需要對(duì)數(shù)據(jù)集