資源描述:
《數(shù)據(jù)挖掘中決策樹分類算法的研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、第33卷第2期東華理工大學(xué)學(xué)報(bào)(自然科學(xué)版)Vol.33No.22010年6月JOURNALOFEASTCHINAINSTITUTEOFTECHNOLOGYJun.2010doi:10.3969/j.issn.1674-3504.2010.02.015數(shù)據(jù)挖掘中決策樹分類算法的研究李如平(安徽工商職業(yè)學(xué)院電子信息系,安徽合肥231100)摘要:決策樹方法是數(shù)據(jù)挖掘中一種重要的分類方法,決策樹是一個(gè)類似流程圖的樹型結(jié)構(gòu),其中樹的每個(gè)內(nèi)部結(jié)點(diǎn)代表對一個(gè)屬性的測試,其分支代表測試的結(jié)果,而樹的每個(gè)葉結(jié)點(diǎn)代表一個(gè)類別。通過決策樹模型對
2、一條記錄進(jìn)行分類,就是通過按照模型中屬性測試結(jié)果從根到葉找到一條路徑,最后葉節(jié)點(diǎn)的屬性值就是該記錄的分類結(jié)果。關(guān)鍵詞:數(shù)據(jù)挖掘,分類,決策樹中圖分類號:TP311.13文獻(xiàn)標(biāo)識碼:A文章編號:1674-3504(2010)02-192-05近年來,隨著數(shù)據(jù)庫和數(shù)據(jù)倉庫技術(shù)的廣泛應(yīng)的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性的比較,并根據(jù)不同屬性判斷用以及計(jì)算機(jī)技術(shù)的快速發(fā)展,人們利用信息技術(shù)從該節(jié)點(diǎn)向下的分支,在決策樹的葉節(jié)點(diǎn)得到結(jié)搜集數(shù)據(jù)的能力大幅度提高,大量數(shù)據(jù)庫被用于商論。所以從根到葉節(jié)點(diǎn)就對應(yīng)著一條合取規(guī)則,整業(yè)管理、政府辦公、科學(xué)研究和工程開
3、發(fā)等。面對棵樹就對應(yīng)著一組析取表達(dá)式規(guī)則(張桂杰,海量的存儲數(shù)據(jù),如何從中有效地發(fā)現(xiàn)有價(jià)值的信2005)。息或知識,是一項(xiàng)非常艱巨的任務(wù)。數(shù)據(jù)挖掘就是把決策樹當(dāng)成一個(gè)布爾函數(shù)。函數(shù)的輸入為為了應(yīng)對這種要求而產(chǎn)生并迅速發(fā)展起來的。數(shù)物體或情況的一切屬性(property),輸出為”是”或據(jù)挖掘就是從大型數(shù)據(jù)庫的數(shù)據(jù)中提取人們感興“否”的決策值。在決策樹中,每個(gè)樹枝節(jié)點(diǎn)對應(yīng)著趣的知識,這些知識是隱含的、事先未知的潛在有一個(gè)有關(guān)某項(xiàng)屬性的測試,每個(gè)樹葉節(jié)點(diǎn)對應(yīng)著一用的信息,提取的知識表示為概念、規(guī)則、規(guī)律、模個(gè)布爾函數(shù)值,樹中的每個(gè)
4、分支,代表測試屬性其式等形式(姜靈敏等,2007)。中一個(gè)可能的值。分類在數(shù)據(jù)挖掘中是一項(xiàng)非常重要的任務(wù)。最為典型的決策樹學(xué)習(xí)系統(tǒng)是ID3,它起源于分類的目的是學(xué)會(huì)一個(gè)分類函數(shù)或分類模型,把數(shù)概念學(xué)習(xí)系統(tǒng)CLS,最后又演化為能處理連續(xù)屬性據(jù)庫中的數(shù)據(jù)項(xiàng)映射到給定類別中的某個(gè)類別。的C4.5(C5.0)等。它是一種指導(dǎo)的學(xué)習(xí)方法,該分類可用于預(yù)測,預(yù)測的目的是從歷史數(shù)據(jù)記錄中方法先根據(jù)訓(xùn)練子集形成決策樹。如果該樹不能自動(dòng)推導(dǎo)出對給定數(shù)據(jù)的趨勢描述,從而能對未來對所有給出的訓(xùn)練子集正確分類,那么選擇一些其數(shù)據(jù)進(jìn)行預(yù)測(趙翔,200
5、5)。分類算法最知名的是它的訓(xùn)練子集加入到原來的子集中,重復(fù)該過程一決策樹方法,決策樹是用于分類的一種樹結(jié)構(gòu)。直到時(shí)形成正確的決策集。當(dāng)經(jīng)過一批訓(xùn)練實(shí)例1決策樹介紹集的訓(xùn)練產(chǎn)生一棵決策樹,決策樹可以根據(jù)屬性的取值對一個(gè)未知實(shí)例集進(jìn)行分類。使用決策樹對決策樹(decisiontree)技術(shù)是用于分類和預(yù)測實(shí)例進(jìn)行分類的時(shí)候,由樹根開始對該對象的屬性的主要技術(shù),決策樹學(xué)習(xí)是一種典型的以實(shí)例為基逐漸測試其值,并且順著分支向下走,直至到達(dá)某礎(chǔ)的歸納學(xué)習(xí)算法,它著眼于從一組無次序、無規(guī)個(gè)葉結(jié)點(diǎn),此葉結(jié)點(diǎn)代表的類即為該對象所處的則的事例中
6、推理出決策樹表示形式的分類規(guī)則(趙類。翔,2005)。它采用自頂向下的遞歸方式,在決策樹決策樹是應(yīng)用非常廣泛的分類方法,目前有多種決策樹方法,如ID3,C4.5,PUBLIC,CART,CN2,收稿日期:2010-02-28SLIQ,SPRINT等。大多數(shù)已開發(fā)的決策樹是一種作者簡介:李如平(1973—),男,安徽肥東人,講師,碩士,主要研究方向:核心算法的變體,下面先介紹一下決策樹分類的基計(jì)算機(jī)應(yīng)用技術(shù)、信息管理。本思想決策樹構(gòu)造與剪枝,然后詳細(xì)介紹ID3和第2期李如平:數(shù)據(jù)挖掘中決策樹分類算法的研究193C4.5算法及決策
7、樹算法的分析及改進(jìn)等??赡苋鄙俦仨毜臄?shù)據(jù)而造成數(shù)據(jù)不完整;可能數(shù)據(jù)不準(zhǔn)確、含有噪聲甚至是錯(cuò)誤的,所以要討論噪聲2決策樹構(gòu)造與剪枝問題。基本的決策樹構(gòu)造算法沒有考慮噪聲,生成決策樹分類算法通常分為兩個(gè)步驟,決策樹生的決策樹完全與訓(xùn)練例子擬合。有噪聲情況下,完成和決策樹剪枝。全擬合將導(dǎo)致過分?jǐn)M合,即對訓(xùn)練數(shù)據(jù)的完全擬合2.1決策樹構(gòu)造反而不具有很好的預(yù)測性能。剪枝是一種克服噪聲的技術(shù),同時(shí)它也能使樹得到簡化而變得更容易決策樹構(gòu)造算法的輸入是一組帶有類別標(biāo)記理解。的例子,構(gòu)造的結(jié)果是一棵二叉樹或多叉樹。二叉1)兩種基本的剪枝策略。樹
8、的內(nèi)部結(jié)點(diǎn)(非葉子結(jié)點(diǎn))一般表示為一個(gè)邏輯①前期剪枝(Forward-Pruning)是在樹的生長判斷,如形式為(ai=vi)的邏輯判斷,其中ai是屬過程完成前就進(jìn)行剪枝(馬麗等,2008)。在樹的生性,vi是該屬性的某個(gè)值。樹的邊是邏輯判斷的分長過程中,決定是繼續(xù)對不純的訓(xùn)