數(shù)據(jù)挖掘?qū)д?第2章 基本數(shù)據(jù)挖掘技術.ppt

數(shù)據(jù)挖掘?qū)д?第2章 基本數(shù)據(jù)挖掘技術.ppt

ID:56373767

大小:1.04 MB

頁數(shù):79頁

時間:2020-06-14

數(shù)據(jù)挖掘?qū)д?第2章 基本數(shù)據(jù)挖掘技術.ppt_第1頁
數(shù)據(jù)挖掘?qū)д?第2章 基本數(shù)據(jù)挖掘技術.ppt_第2頁
數(shù)據(jù)挖掘?qū)д?第2章 基本數(shù)據(jù)挖掘技術.ppt_第3頁
數(shù)據(jù)挖掘?qū)д?第2章 基本數(shù)據(jù)挖掘技術.ppt_第4頁
數(shù)據(jù)挖掘?qū)д?第2章 基本數(shù)據(jù)挖掘技術.ppt_第5頁
資源描述:

《數(shù)據(jù)挖掘?qū)д?第2章 基本數(shù)據(jù)挖掘技術.ppt》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在PPT專區(qū)-天天文庫

1、第2章基本數(shù)據(jù)挖掘技術2.1決策樹2.2關聯(lián)規(guī)則2.3聚類分析技術2.4數(shù)據(jù)挖掘技術的選擇本章目標決策樹了解決策樹的概念;了解C4.5決策樹建立過程、關鍵技術和決策樹規(guī)則;了解其他決策樹算法。關聯(lián)規(guī)則了解關聯(lián)規(guī)則;掌握Apriori關聯(lián)分析過程。聚類分析掌握K-均值算法。了解數(shù)據(jù)挖掘技術的選擇考慮。2.1決策樹決策樹(DecisionTree):從數(shù)據(jù)產(chǎn)生決策樹的機器學習技術。決策樹是數(shù)據(jù)挖掘中最常用的一種分類和預測技術,可建立分類和預測模型。決策樹模型是一個樹狀結構,樹中每個節(jié)點表示分析對象的某個屬性,每個分支表示這個屬性的某個可能的取值,每個葉節(jié)點

2、表示經(jīng)歷從根節(jié)點到該葉節(jié)點這條路徑上的對象的值。模型通過樹中的各個分支對對象進行分類,葉節(jié)點表示的對象值表達了決策樹分類的結果。C4.5算法決策樹是一種常用的有指導學習模型,其中C4.5算法是常用算法之一。C4.5由羅斯.昆蘭提出,其基本思想是:給定一個表示為“屬性-值”格式的由多個實例構成的數(shù)據(jù)集,數(shù)據(jù)集具有多個輸入屬性和一個輸出屬性輸入屬性表達了數(shù)據(jù)集中每個實例的某個方面的特征或行為輸出屬性代表每個實例屬于且僅屬于的那個類羅斯.昆蘭羅斯.昆蘭以發(fā)明機器學習和數(shù)據(jù)挖掘程序而聞名。昆蘭1965年獲悉尼大學物理學碩士學位;1968年獲惠靈頓大學計算機科學

3、博士學位。1979年,澳大利亞計算機科學家昆蘭提出ID3的決策樹算法,ID3的增強版C4.5。C4.5在工業(yè)數(shù)據(jù)挖掘?qū)嵺`中應用非常廣泛,被譽為機器學習和數(shù)據(jù)挖掘研究中的基準算法。分類模型算法使用數(shù)據(jù)集中的部分或全部實例作為訓練實例建模,即分類模型。分類模型可以用于分類或預測新的未知分類的實例。在模型應用之前,往往需要進行必要的剪枝和檢驗。剪枝是用來限制樹的規(guī)模,提高模型的分類正確率。檢驗是評估決策樹模型質(zhì)量的重要環(huán)節(jié),也可以對模型分類未知實例的能力進行檢驗。2.1.1決策樹算法的一般過程C4.5算法的步驟(1)給定格式為“屬性-值”的數(shù)據(jù)集T。(2)選

4、擇一個最能區(qū)別T中實例的輸入屬性,C4.5使用增益率來選擇該屬性。(3)使用該屬性創(chuàng)建一個樹節(jié)點,同時創(chuàng)建該節(jié)點的分支,每個分支為該節(jié)點的所有可能取值。(4)使用這些分支,將數(shù)據(jù)集中的實例進行分類,成為細分的子類。C4.5算法的步驟(續(xù))(5)將當前子類的實例集合,對數(shù)據(jù)集中的剩余屬性重復(2)(3)步,直到滿足以下兩個條件之一時,該過程終止,創(chuàng)建葉節(jié)點,該節(jié)點為沿此分支所表達的分類類別,其值為輸出屬性的值。算法終止條件:該子類中的實例滿足預定義的標準,如全部分到一個輸出類中,分到一個輸出類中的實例達到某個比例;沒有剩余屬性?!纠?.1】假設打籃球數(shù)據(jù)

5、集T,建立決策樹,用于預測某個學生是否決定去打籃球。序號WeatherTemperature/?CCoursesPartnerPlay1Sunny20~304YesYes2Sunny20~304NoYes3Rain10~01YesYes4Sunny30~405YesYes5Rain20~308NoNo6Sunny-10~05YesYes7Sunny-10~07NoNo8Rain20~302YesYes9Rain20~306YesNo10Sunny10~206YesNo11Rain10~203NoNo12Rain10~201YesNo13Sunny10~

6、208YesNo14Sunny0~103YesYes15Rain0~102YesNo打籃球決策樹使用15個實例進行有訓練,輸入屬性有四個:Weather、Temperature、Courses和Partner輸出屬性Play2.1.2決策樹算法的關鍵技術三項關鍵技術(1)選擇最能區(qū)別數(shù)據(jù)集中實例屬性的方法(2)剪枝方法:為控制決策樹規(guī)模、優(yōu)化決策樹而采取的剪除部分分支的方法。(3)檢驗方法:評估決策樹的分類正確程度的方法。分支節(jié)點的創(chuàng)建剪枝檢驗1、選擇最能區(qū)別數(shù)據(jù)集中實例屬性的方法C4.5使用了信息論,即使用增益率(GainRatio)的概念來選擇屬性

7、;目的是使樹的層次和節(jié)點數(shù)最小,使數(shù)據(jù)的概化程度最大。C4.5選擇的基本思想:選擇具有最大增益率的屬性作為分支節(jié)點來分類實例數(shù)據(jù)。1)信息熵1948年,克勞德·香農(nóng)提出“信息熵”的概念。在信息論中,信息熵是信息的不確定程度的度量。熵越大,信息就越不容易搞清楚,需要的信息量就越大,能傳輸?shù)男畔⒕驮蕉?。香農(nóng)(1916年4月30日—2001年2月24日)是美國數(shù)學家、信息論的創(chuàng)始人。香農(nóng)提出了信息熵的概念,為信息論和數(shù)字通信奠定了基礎。信息熵的計算公式H(x)表示隨機事件x的熵p表示xi出現(xiàn)的概率xi表示某個隨機事件x的所有可能的結果n為實例集合被分為可能的

8、類的個數(shù)信息熵的計算單位是比特bit舉例例1:一次投硬幣實驗,理想情況下正反面出現(xiàn)的概率分別為

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。