數(shù)據挖掘中決策樹算法的探討

數(shù)據挖掘中決策樹算法的探討

ID:30835706

大小:241.87 KB

頁數(shù):7頁

時間:2019-01-03

數(shù)據挖掘中決策樹算法的探討_第1頁
數(shù)據挖掘中決策樹算法的探討_第2頁
數(shù)據挖掘中決策樹算法的探討_第3頁
數(shù)據挖掘中決策樹算法的探討_第4頁
數(shù)據挖掘中決策樹算法的探討_第5頁
資源描述:

《數(shù)據挖掘中決策樹算法的探討》由會員上傳分享,免費在線閱讀,更多相關內容在工程資料-天天文庫。

1、數(shù)據挖掘中決策樹算法的探討唐華松,姚熠文(華南理工大學計算機系,廣東廣州510640)摘要:決策樹莫法是DM的一個活躍的研究領域。首先給出了I)M中決策樹其法的基本思想,然后討論了決策樹算法中的難點問題,提出了利用伙商與加權和的思想來選擇取值的算法。關鍵詞:數(shù)據挖掘;決策樹;癇中圖分類號:TP301.6文獻標識碼:A文章編號:100123695(2001)0820018202ResearchonDecisionTreeinDataMiningTANGHua2song,YAOYao2wen(Dept.ofComputerScience,SouthC

2、hinaUniversityofTechnology,GuangzhouGuangdong510640,China)Abstract:DecisionTreeisoneofheatedfieldsinDataMininginrecentyears.ThispaperfirstgivesthemainthoughtsofalgorithmofDecisionTreeinDataMining,thendiscussesthedifficuItproblemofselectingvalueondivisioninDecisionTree,andputf

3、orwardanalgorithmusingthethoughtsofentropyandweightedentropytosolvetheproblemwiththeexamples?Keywords:DM;Decisiontree;Entropy1弓I言數(shù)據庫技術的迅速發(fā)展以及數(shù)據庫管理系統(tǒng)的廣泛應用,導致人們積累了越來越多的數(shù)據。巨增的數(shù)據背后蘊藏著豐富的如識,而目前的數(shù)據庫技術雖可以高效地實現(xiàn)數(shù)據的查詢、統(tǒng)計等功能,但卻無法發(fā)現(xiàn)數(shù)據中存在的關系和規(guī)貝!J,無法根據現(xiàn)有的數(shù)據預測未來的發(fā)展趨勢。數(shù)據庫中存在著大量的數(shù)據,卻缺乏挖掘數(shù)據背后隱

4、藏的知識的手段,出現(xiàn)了“數(shù)據爆炸而知識貧乏”的現(xiàn)象。在此背景下,數(shù)據庫知識發(fā)現(xiàn)(KDD)及其核心技術一數(shù)據挖掘(DM)便應運而生了。KDD的研究內容是,能自動地去處理數(shù)據庫中大量的原始數(shù)據,從中挖掘搜索出具有規(guī)律、富有意義的模式。它的發(fā)現(xiàn)過程主要冇三個步驟:定義要發(fā)現(xiàn)的問題;根據問題進行數(shù)據搜索.模式抽??;評價所發(fā)現(xiàn)的知識的好壞。三者之中,核心技術是第二步,即數(shù)據搜索及模式抽取方法。KDD=問題處理+DM+解釋評價。由于問題處理和解釋評價的研究較成熟,所以目前KDD的研究和實現(xiàn)堆點重點都集中在核心的DVI上。DM的核心技術算法主要有統(tǒng)計分析方法、

5、神經元網絡.決策樹方法,遺傳算法等。其中,決策樹是一種常用于預測模型的算法,它通過將大量數(shù)據有目的地分類,從中找到一些兵有商業(yè)價值的,潛在的信息。2決朿樹的基本思想決策樹的結構,顧名思義,就像一棵樹。它利用樹的結構將數(shù)據記錄進行分類,樹的一個葉結點就代表某個條件下的一個記錄集,根據記錄字段的不同取值建立樹的分支;在每個分支子集中重復璉立下層結點和分支,便可生成一棵決策樹。例如,我們要分析一個網站的用戶接受某項新服務的情況,可以從中選取100個用戶,其中50個接受這項新?服務的,50個拒絕這項新?服務的,然后通過建立決策樹來分析用戶的情況,尋找一些

6、潛在的規(guī)則信息。圖1網站某項新服務的決策樹結構n礙受〕9拒偲丨彼用靳賬、、使用舊味號使用時間V"年八?恵用時閭》I年

7、匕樓受護孚"1R檢受?“)爪薩

8、用戶年鞋<LV、'、用戶年tb-25

9、2。按受宀并繪1(5矮受」0拒幻田1網站某項新朋務的快策樹結構■???????????????????利用決策樹進行分析,可以容易地找到一些具有商業(yè)價值的潛在的規(guī)則信息。如在上例中,從決策樹結構圖可以看出:在接受這項新服務的用戶中有60%是使用新?帳號的,在拒絕這項新服務的用戶中冇100%是使用舊帳號的;也就是說,如果用戶是使用新?帳號的,那么他毓有60%的可能

10、接受這項新服務,如果用戶是使用舊帳號的,那么他就冇100%的可能拒絕這項新服務。當然,還可以從決策樹中找到其它的規(guī)則信息,這里就不再舉例說明了。3決朿樹的技術難點理決策樹,就壘根據記錄字段的不同取值建立樹的分支,以及在每個分支子集中重復理立下層結點和分支。建決策樹的關鍵在于建立分支時對記錄字段不同取值的選擇。選擇不同的字段值,會使劃分出來的記錄子集不同,影響決策樹生長的快慢以及決策樹結?81?計算機應用研究2001年?1995-2004TsinghuciTongfangOpticalDiscCo.,Ltd.Allrightsreserved.構的

11、好壞,從而導致找到的規(guī)則信息的優(yōu)劣??梢?,決策樹算法的技術難點也就是選擇一個好的分支取值。利用一個好的取值來產生分支,不但可以加快決策樹

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。