資源描述:
《數(shù)據(jù)分析 論文數(shù)據(jù)挖掘算法論文——淺析數(shù)據(jù)挖掘分類方法中的決策樹算法》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、數(shù)據(jù)分析論文數(shù)據(jù)挖掘算法論文淺析數(shù)據(jù)挖掘分類方法中的決策樹算法 [摘要]分類是數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和模式識別中一個重要的研究領(lǐng)域。決策樹分類是一種重要的數(shù)據(jù)分類技術(shù),本文通過對對各種決策樹分類算法的基本思想進(jìn)行闡述,并分析比較了各種算法的主要特性,為使用者選擇算法或研究者改進(jìn)算法提供借鑒?! 關(guān)鍵詞]算法數(shù)據(jù)挖掘分類決策樹 一、引言 隨著社會的進(jìn)步和經(jīng)濟(jì)的發(fā)展,社會各領(lǐng)域活動中會不斷產(chǎn)生大量的數(shù)據(jù),人們把這些按照一定的數(shù)據(jù)模型保存在數(shù)據(jù)庫中。數(shù)據(jù)庫中隱藏著許多可以為商業(yè)和科研等活動的決策提供所需要的知識,如何有效地獲取這些知識,數(shù)據(jù)挖掘技術(shù)中的分類方
2、法正是解決這個問題的可行而有效的方法。 分類方法是一種重要的數(shù)據(jù)挖掘技術(shù),分類的目的是根據(jù)數(shù)據(jù)集的特點(diǎn)構(gòu)造一個分類函數(shù)或分類模型,該模型能把未知類別的數(shù)據(jù)映射到給定類別的某一個中。該方法通常用于預(yù)測數(shù)據(jù)對象的離散類別。目前分類方法已被廣泛應(yīng)用于各行各業(yè),如銀行信用評估、醫(yī)療診斷、高等教育評估和市場營銷等實(shí)際應(yīng)用領(lǐng)域。本文將對數(shù)據(jù)挖掘分類方法中的決策樹算法加以分析?! 《?、數(shù)據(jù)分類技術(shù)概述 數(shù)據(jù)分類過程主要包含兩個步驟:第一步建立一個描述已知數(shù)據(jù)集類別或概念的模型;該模型是通過對數(shù)據(jù)庫中各數(shù)據(jù)行內(nèi)容的分析而獲得的。每一數(shù)據(jù)行都可以認(rèn)為是屬于一個確定的數(shù)
3、據(jù)類別,其類別值是由一個屬性描述(即類別屬性)。分類學(xué)習(xí)方法所使用的數(shù)據(jù)集稱為訓(xùn)練樣本集和,因此分類學(xué)習(xí)又稱為監(jiān)督學(xué)習(xí),它是在已知訓(xùn)練樣本類別情況下,通過學(xué)習(xí)建立相應(yīng)模型;而無監(jiān)督學(xué)習(xí)則是訓(xùn)練樣本的類別與類別個數(shù)均未知的情況下進(jìn)行的。通常分類學(xué)習(xí)所獲得的模型可以表示為分類規(guī)則形式、決策樹形式或數(shù)學(xué)形式。 第二步就是利用所獲得的模型進(jìn)行分類操作,首先對模型分類準(zhǔn)確率進(jìn)行估計(jì),holdout方法就是一種簡單的估計(jì)方法。它利用一組帶有類別的樣本進(jìn)行分類測試(測試樣本隨機(jī)獲得且與訓(xùn)練樣本相互獨(dú)立)。對于一個給定數(shù)據(jù)集所構(gòu)造出模型的準(zhǔn)確性可以通過由該模型所正確分
4、類的數(shù)據(jù)樣本各書所占總測試樣本比例得到?! 榱颂岣叻诸惖臏?zhǔn)確性、效率和可擴(kuò)展性,在進(jìn)行分類之前,通常要對數(shù)據(jù)進(jìn)行以下預(yù)處理?! ?.數(shù)據(jù)清理。主要幫助出去數(shù)據(jù)中的噪聲,并妥善解決遺失數(shù)據(jù)的問題。 2.相關(guān)性分析。其目的是刪除那些與分類任務(wù)不相關(guān)的或冗余的屬性。 3.數(shù)據(jù)轉(zhuǎn)換。利用概念層次樹,數(shù)據(jù)能夠被泛化到更高的層次。例如屬性“收入”的數(shù)值就可以被泛化為“低、中等、高”的離散區(qū)間?! ∫詳?shù)據(jù)庫為研究對象,數(shù)據(jù)挖掘分類模型的構(gòu)造算法主要有決策樹、貝葉斯、神經(jīng)網(wǎng)絡(luò)、基于關(guān)聯(lián)和基于數(shù)據(jù)庫技術(shù)的方法等?! ∪?、決策樹(decisiontree)分類算法
5、所謂決策樹就是一個類似流程圖的樹型結(jié)構(gòu),決策樹是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法。它從一組無次序、無規(guī)則的元組中推理出決策樹表示形式的分類規(guī)則。它采用自頂向下的遞歸方式,在決策樹的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性值的比較,并根據(jù)不同的屬性值從該結(jié)點(diǎn)向下分支,其中樹的每個內(nèi)部節(jié)點(diǎn)代表對一個屬性的測試,葉結(jié)點(diǎn)是要學(xué)習(xí)劃分的類。從根節(jié)點(diǎn)到葉結(jié)點(diǎn)的一條路徑就對應(yīng)著一條分類規(guī)則,整個決策樹就對應(yīng)著一組析取表達(dá)式規(guī)則。樹的最高層點(diǎn)就是根節(jié)點(diǎn)?! Q策樹的生成分為學(xué)習(xí)和測試兩個階段。決策樹學(xué)習(xí)階段采用自頂向下的遞歸方式。決策樹算法分兩個步驟:一是樹的生成,開始時所有數(shù)據(jù)都在根節(jié)點(diǎn),然后遞歸
6、地進(jìn)行數(shù)據(jù)劃分,直至生成葉結(jié)點(diǎn)。二是樹枝修剪,在一個決策樹剛剛建立起來的時候,它其中的許多分支都是根據(jù)訓(xùn)練樣本集合中的異常數(shù)據(jù)(由于噪聲等原因)構(gòu)造出來的。樹枝修剪就是去掉一些可能是噪聲或異常的數(shù)據(jù)。決策樹停止分割的條件是一個節(jié)點(diǎn)上的數(shù)據(jù)都是屬于同一個類別;沒有屬性可以再用于對數(shù)據(jù)進(jìn)行分割。決策樹模型可以建立得很快,并適合應(yīng)用到大量的數(shù)據(jù)上。 目前已經(jīng)形成的決策樹算法有:ID3、C4.5、SLIQ、SPRINT、RainForest、CLS、CHAID、CART、FACT、GINT、SEE5等。其中比較有著名的是Quinlan提出的ID3算法,以及在I
7、D3算法基礎(chǔ)上提出的C4.5算法。 1.ID3算法原理 基本決策樹構(gòu)造算法就是一個貪心算法,它采用自頂向下遞歸的方法構(gòu)造決策樹。著名的決策樹算法ID3算法的基本策略如下: (1)樹以代表訓(xùn)練樣本的單個節(jié)點(diǎn)開始?! ?2)如果樣本都在同一個類中,則這個節(jié)點(diǎn)成為樹葉結(jié)點(diǎn)并標(biāo)記為該類別?! ?3)否則算法使用信息熵(稱為信息增益)作為啟發(fā)知識來幫助選擇合適的將樣本分類的屬性,以便將樣本集劃分為若干子集。該屬性就是相應(yīng)節(jié)點(diǎn)的“測試”或“判定”屬性。同時所有屬性應(yīng)當(dāng)是離散值?! ?4)對測試屬性的每個已知的離散值創(chuàng)建一個分支,并據(jù)此劃分樣本。 (5)算法使
8、用類似的方法,遞歸地形成每個劃分上的樣本決策樹。一個屬性一旦出現(xiàn)在某個結(jié)點(diǎn)上,那