數(shù)據(jù)分析論文數(shù)據(jù)挖掘算法論文——淺析數(shù)據(jù)挖掘分類方法中的決策樹算法

ID：44956940

大小：43.50 KB

頁數(shù)：8頁

時間：2019-11-06

數(shù)據(jù)分析論文數(shù)據(jù)挖掘算法論文——淺析數(shù)據(jù)挖掘分類方法中的決策樹算法_第1頁

數(shù)據(jù)分析論文數(shù)據(jù)挖掘算法論文——淺析數(shù)據(jù)挖掘分類方法中的決策樹算法_第2頁

數(shù)據(jù)分析論文數(shù)據(jù)挖掘算法論文——淺析數(shù)據(jù)挖掘分類方法中的決策樹算法_第3頁

數(shù)據(jù)分析論文數(shù)據(jù)挖掘算法論文——淺析數(shù)據(jù)挖掘分類方法中的決策樹算法_第4頁

數(shù)據(jù)分析論文數(shù)據(jù)挖掘算法論文——淺析數(shù)據(jù)挖掘分類方法中的決策樹算法_第5頁

資源描述：

《數(shù)據(jù)分析論文數(shù)據(jù)挖掘算法論文——淺析數(shù)據(jù)挖掘分類方法中的決策樹算法》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、數(shù)據(jù)分析論文數(shù)據(jù)挖掘算法論文淺析數(shù)據(jù)挖掘分類方法中的決策樹算法　[摘要]分類是數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和模式識別中一個重要的研究領(lǐng)域。決策樹分類是一種重要的數(shù)據(jù)分類技術(shù),本文通過對對各種決策樹分類算法的基本思想進(jìn)行闡述,并分析比較了各種算法的主要特性,為使用者選擇算法或研究者改進(jìn)算法提供借鑒?！　關(guān)鍵詞]算法數(shù)據(jù)挖掘分類決策樹　　一、引言　　隨著社會的進(jìn)步和經(jīng)濟(jì)的發(fā)展,社會各領(lǐng)域活動中會不斷產(chǎn)生大量的數(shù)據(jù),人們把這些按照一定的數(shù)據(jù)模型保存在數(shù)據(jù)庫中。數(shù)據(jù)庫中隱藏著許多可以為商業(yè)和科研等活動的決策提供所需要的知識,如何有效地獲取這些知識,數(shù)據(jù)挖掘技術(shù)中的分類方

2、法正是解決這個問題的可行而有效的方法。　　分類方法是一種重要的數(shù)據(jù)挖掘技術(shù),分類的目的是根據(jù)數(shù)據(jù)集的特點(diǎn)構(gòu)造一個分類函數(shù)或分類模型,該模型能把未知類別的數(shù)據(jù)映射到給定類別的某一個中。該方法通常用于預(yù)測數(shù)據(jù)對象的離散類別。目前分類方法已被廣泛應(yīng)用于各行各業(yè),如銀行信用評估、醫(yī)療診斷、高等教育評估和市場營銷等實(shí)際應(yīng)用領(lǐng)域。本文將對數(shù)據(jù)挖掘分類方法中的決策樹算法加以分析?！　《?、數(shù)據(jù)分類技術(shù)概述　　數(shù)據(jù)分類過程主要包含兩個步驟:第一步建立一個描述已知數(shù)據(jù)集類別或概念的模型;該模型是通過對數(shù)據(jù)庫中各數(shù)據(jù)行內(nèi)容的分析而獲得的。每一數(shù)據(jù)行都可以認(rèn)為是屬于一個確定的數(shù)

3、據(jù)類別,其類別值是由一個屬性描述(即類別屬性)。分類學(xué)習(xí)方法所使用的數(shù)據(jù)集稱為訓(xùn)練樣本集和,因此分類學(xué)習(xí)又稱為監(jiān)督學(xué)習(xí),它是在已知訓(xùn)練樣本類別情況下,通過學(xué)習(xí)建立相應(yīng)模型;而無監(jiān)督學(xué)習(xí)則是訓(xùn)練樣本的類別與類別個數(shù)均未知的情況下進(jìn)行的。通常分類學(xué)習(xí)所獲得的模型可以表示為分類規(guī)則形式、決策樹形式或數(shù)學(xué)形式。　　第二步就是利用所獲得的模型進(jìn)行分類操作,首先對模型分類準(zhǔn)確率進(jìn)行估計(jì),holdout方法就是一種簡單的估計(jì)方法。它利用一組帶有類別的樣本進(jìn)行分類測試(測試樣本隨機(jī)獲得且與訓(xùn)練樣本相互獨(dú)立)。對于一個給定數(shù)據(jù)集所構(gòu)造出模型的準(zhǔn)確性可以通過由該模型所正確分

4、類的數(shù)據(jù)樣本各書所占總測試樣本比例得到?！　榱颂岣叻诸惖臏?zhǔn)確性、效率和可擴(kuò)展性,在進(jìn)行分類之前,通常要對數(shù)據(jù)進(jìn)行以下預(yù)處理?！　?.數(shù)據(jù)清理。主要幫助出去數(shù)據(jù)中的噪聲,并妥善解決遺失數(shù)據(jù)的問題。　　2.相關(guān)性分析。其目的是刪除那些與分類任務(wù)不相關(guān)的或冗余的屬性。　　3.數(shù)據(jù)轉(zhuǎn)換。利用概念層次樹,數(shù)據(jù)能夠被泛化到更高的層次。例如屬性“收入”的數(shù)值就可以被泛化為“低、中等、高”的離散區(qū)間?！　∫詳?shù)據(jù)庫為研究對象,數(shù)據(jù)挖掘分類模型的構(gòu)造算法主要有決策樹、貝葉斯、神經(jīng)網(wǎng)絡(luò)、基于關(guān)聯(lián)和基于數(shù)據(jù)庫技術(shù)的方法等?！　∪?、決策樹(decisiontree)分類算法　　

5、所謂決策樹就是一個類似流程圖的樹型結(jié)構(gòu),決策樹是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法。它從一組無次序、無規(guī)則的元組中推理出決策樹表示形式的分類規(guī)則。它采用自頂向下的遞歸方式,在決策樹的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性值的比較,并根據(jù)不同的屬性值從該結(jié)點(diǎn)向下分支,其中樹的每個內(nèi)部節(jié)點(diǎn)代表對一個屬性的測試,葉結(jié)點(diǎn)是要學(xué)習(xí)劃分的類。從根節(jié)點(diǎn)到葉結(jié)點(diǎn)的一條路徑就對應(yīng)著一條分類規(guī)則,整個決策樹就對應(yīng)著一組析取表達(dá)式規(guī)則。樹的最高層點(diǎn)就是根節(jié)點(diǎn)?！　Q策樹的生成分為學(xué)習(xí)和測試兩個階段。決策樹學(xué)習(xí)階段采用自頂向下的遞歸方式。決策樹算法分兩個步驟:一是樹的生成,開始時所有數(shù)據(jù)都在根節(jié)點(diǎn),然后遞歸

6、地進(jìn)行數(shù)據(jù)劃分,直至生成葉結(jié)點(diǎn)。二是樹枝修剪,在一個決策樹剛剛建立起來的時候,它其中的許多分支都是根據(jù)訓(xùn)練樣本集合中的異常數(shù)據(jù)(由于噪聲等原因)構(gòu)造出來的。樹枝修剪就是去掉一些可能是噪聲或異常的數(shù)據(jù)。決策樹停止分割的條件是一個節(jié)點(diǎn)上的數(shù)據(jù)都是屬于同一個類別;沒有屬性可以再用于對數(shù)據(jù)進(jìn)行分割。決策樹模型可以建立得很快,并適合應(yīng)用到大量的數(shù)據(jù)上。　　目前已經(jīng)形成的決策樹算法有:ID3、C4.5、SLIQ、SPRINT、RainForest、CLS、CHAID、CART、FACT、GINT、SEE5等。其中比較有著名的是Quinlan提出的ID3算法,以及在I

7、D3算法基礎(chǔ)上提出的C4.5算法。　　1.ID3算法原理　　基本決策樹構(gòu)造算法就是一個貪心算法,它采用自頂向下遞歸的方法構(gòu)造決策樹。著名的決策樹算法ID3算法的基本策略如下:　　(1)樹以代表訓(xùn)練樣本的單個節(jié)點(diǎn)開始?！　?2)如果樣本都在同一個類中,則這個節(jié)點(diǎn)成為樹葉結(jié)點(diǎn)并標(biāo)記為該類別?！　?3)否則算法使用信息熵(稱為信息增益)作為啟發(fā)知識來幫助選擇合適的將樣本分類的屬性,以便將樣本集劃分為若干子集。該屬性就是相應(yīng)節(jié)點(diǎn)的“測試”或“判定”屬性。同時所有屬性應(yīng)當(dāng)是離散值?！　?4)對測試屬性的每個已知的離散值創(chuàng)建一個分支,并據(jù)此劃分樣本。　　(5)算法使

8、用類似的方法,遞歸地形成每個劃分上的樣本決策樹。一個屬性一旦出現(xiàn)在某個結(jié)點(diǎn)上,那

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 8



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

數(shù)據(jù)分析論文數(shù)據(jù)挖掘算法論文——淺析數(shù)據(jù)挖掘分類方法中的決策樹算法

數(shù)據(jù)分析論文數(shù)據(jù)挖掘算法論文——淺析數(shù)據(jù)挖掘分類方法中的決策樹算法

相關(guān)文章

相關(guān)標(biāo)簽

數(shù)據(jù)分析 論文數(shù)據(jù)挖掘算法論文——淺析數(shù)據(jù)挖掘分類方法中的決策樹算法

數(shù)據(jù)分析 論文數(shù)據(jù)挖掘算法論文——淺析數(shù)據(jù)挖掘分類方法中的決策樹算法

相關(guān)文章

相關(guān)標(biāo)簽

數(shù)據(jù)分析論文數(shù)據(jù)挖掘算法論文——淺析數(shù)據(jù)挖掘分類方法中的決策樹算法

數(shù)據(jù)分析論文數(shù)據(jù)挖掘算法論文——淺析數(shù)據(jù)挖掘分類方法中的決策樹算法