如何解決決策樹過擬合

如何解決決策樹過擬合

ID:37569925

大?。?.32 MB

頁數(shù):28頁

時(shí)間:2019-05-12

如何解決決策樹過擬合_第1頁
如何解決決策樹過擬合_第2頁
如何解決決策樹過擬合_第3頁
如何解決決策樹過擬合_第4頁
如何解決決策樹過擬合_第5頁
資源描述:

《如何解決決策樹過擬合》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、構(gòu)造決策樹如何解決過度擬合數(shù)據(jù)問題怎么去認(rèn)識(shí)并去解決這個(gè)問題?概念什么是過度擬合數(shù)據(jù)原因過度擬合數(shù)據(jù)是怎么產(chǎn)生的解決怎么去解決這個(gè)問題22v一.什么是過度擬合數(shù)據(jù)?過度擬合(overfitting)的標(biāo)準(zhǔn)定義:給定一個(gè)假設(shè)空間H,一個(gè)假設(shè)h屬于H,如果存在其他的假設(shè)h’屬于H,使得在訓(xùn)練樣例上h的錯(cuò)誤率比h’小,但在整個(gè)實(shí)例分布上h’比h的錯(cuò)誤率小,那么就說假設(shè)h過度擬合訓(xùn)練數(shù)據(jù)。overfittingt是這樣一種現(xiàn)象:一個(gè)假設(shè)在訓(xùn)練數(shù)據(jù)上能夠獲得比其他假設(shè)更好的擬合,但是在訓(xùn)練數(shù)據(jù)外的數(shù)據(jù)集上卻不能很好的擬合數(shù)

2、據(jù)。此時(shí)我們就叫這個(gè)假設(shè)出現(xiàn)了overfitting的現(xiàn)象。3v二.產(chǎn)生過度擬合數(shù)據(jù)問題的原因有哪些?原因1:樣本問題(1)樣本里的噪音數(shù)據(jù)干擾過大,大到模型過分記住了噪音特征,反而忽略了真實(shí)的輸入輸出間的關(guān)系;(什么是噪音數(shù)據(jù)?)(2)樣本抽取錯(cuò)誤,包括(但不限于)樣本數(shù)量太少,抽樣方法錯(cuò)誤,抽樣時(shí)沒有足夠正確考慮業(yè)務(wù)場景或業(yè)務(wù)特點(diǎn),等等導(dǎo)致抽出的樣本數(shù)據(jù)不能有效足夠代表業(yè)務(wù)邏輯或業(yè)務(wù)場景;(3)建模時(shí)使用了樣本中太多無關(guān)的輸入變量。原因2:構(gòu)建決策樹的方法問題在決策樹模型搭建中,我們使用的算法對(duì)于決策樹的生長

3、沒有合理的限制和修剪的話,決策樹的自由生長有可能每片葉子里只包含單純的事件數(shù)據(jù)或非事件數(shù)據(jù),可以想象,這種決策樹當(dāng)然可以完美匹配(擬合)訓(xùn)練數(shù)據(jù),但是一旦應(yīng)用到新的業(yè)務(wù)真實(shí)數(shù)據(jù)時(shí),效果是一塌糊涂。4上面的原因都是現(xiàn)象,但是其本質(zhì)只有一個(gè),那就是“業(yè)務(wù)邏輯理解錯(cuò)誤造成的”,無論是抽樣,還是噪音,還是決策樹等等,如果我們對(duì)于業(yè)務(wù)背景和業(yè)務(wù)知識(shí)非常了解,非常透徹的話,一定是可以避免絕大多數(shù)過擬合現(xiàn)象產(chǎn)生的。因?yàn)樵谀P蛷拇_定需求,到思路討論,到搭建,到業(yè)務(wù)應(yīng)用驗(yàn)證,各個(gè)環(huán)節(jié)都是可以用業(yè)務(wù)敏感來防止過擬合于未然的。5v三.

4、如何解決過度擬合數(shù)據(jù)問題的發(fā)生?針對(duì)原因1的解決方法:合理、有效地抽樣,用相對(duì)能夠反映業(yè)務(wù)邏輯的訓(xùn)練集去產(chǎn)生決策樹;針對(duì)原因2的解決方法(主要):剪枝:提前停止樹的增長或者對(duì)已經(jīng)生成的樹按照一定的規(guī)則進(jìn)行后剪枝。6v剪枝剪枝是一個(gè)簡化過擬合決策樹的過程。有兩種常用的剪枝方法:先剪枝(prepruning):通過提前停止樹的構(gòu)建而對(duì)樹“剪枝”,一旦停止,節(jié)點(diǎn)就成為樹葉。該樹葉可以持有子集元組中最頻繁的類;有多種不同的方式可以讓決策樹停止生長,下面介紹幾種停止決策樹生長的方法:1.定義一個(gè)高度,當(dāng)決策樹達(dá)到該高度時(shí)就

5、可以停止決策樹的生長,這是一種最為簡單的方法;2.達(dá)到某個(gè)結(jié)點(diǎn)的實(shí)例具有相同的特征向量,即使這些實(shí)例不屬于同一類,也可以停止決策樹的生長。這種方法對(duì)于處理數(shù)據(jù)中的數(shù)據(jù)沖突問題非常有效;7v剪枝3.定義一個(gè)閾值,當(dāng)達(dá)到某個(gè)結(jié)點(diǎn)的實(shí)例個(gè)數(shù)小于該閾值時(shí)就可以停止決策樹的生長;4.定義一個(gè)閾值,通過計(jì)算每次擴(kuò)張對(duì)系統(tǒng)性能的增益,并比較增益值與該閾值的大小來決定是否停止決策樹的生長。先剪枝方法不但相對(duì)簡單,效率很高,而且不需要生成整個(gè)決策樹,適合于解決大規(guī)模問題。該方法看起來很直接,但要精確地估計(jì)決策樹生長的停止時(shí)間并不容

6、易,即選取一個(gè)恰當(dāng)?shù)拈撝凳欠浅@щy的。高閾值可能導(dǎo)致過分簡化的樹,而低閾值可能使得樹的簡化太少。8v剪枝后剪枝(postpruning):它首先構(gòu)造完整的決策樹,允許樹過度擬合訓(xùn)練數(shù)據(jù),然后對(duì)那些置信度不夠的結(jié)點(diǎn)子樹用葉子結(jié)點(diǎn)來代替,該葉子的類標(biāo)號(hào)用該結(jié)點(diǎn)子樹中最頻繁的類標(biāo)記。相比于先剪枝,這種方法更常用,正是因?yàn)樵谙燃糁Ψ椒ㄖ芯_地估計(jì)何時(shí)停止樹增長很困難。A1?A1?yesnoyesnoA2?A3?A2?類B剪枝后yesnoyesnoyesnoA4?類AA5?類BA4?類Ayesnoyesnoyesno類A類

7、B類B類A類A類B9v剪枝的思路無論是通過及早停止還是后修剪來得到正確規(guī)模的樹,一個(gè)關(guān)鍵的問題是使用什么樣的準(zhǔn)則來確定最終正確樹的規(guī)模:1.使用訓(xùn)練集合(TrainingSet)和驗(yàn)證集合(ValidationSet),來評(píng)估剪枝方法在修剪結(jié)點(diǎn)上的效用。2.使用所有的訓(xùn)練集合進(jìn)行訓(xùn)練,但是用統(tǒng)計(jì)測試來估計(jì)修剪特定結(jié)點(diǎn)是否會(huì)改善訓(xùn)練集合外的數(shù)據(jù)的評(píng)估性能。測試來進(jìn)一步擴(kuò)展結(jié)點(diǎn)是否能改善整個(gè)分類數(shù)據(jù)的性能,還是僅僅改善了當(dāng)前訓(xùn)練集合數(shù)據(jù)上的性能。3.使用明確的標(biāo)準(zhǔn)來衡量訓(xùn)練樣例和決策樹的復(fù)雜度,當(dāng)編碼長度最小時(shí),停止

8、樹增長,如MDL(MinimumDescriptionLength)準(zhǔn)則。10vReduced-ErrorPruning(REP,錯(cuò)誤率降低剪枝)REP方法是一種比較簡單的后剪枝的方法,在該方法中,可用的數(shù)據(jù)被分成兩個(gè)樣例集合:一個(gè)訓(xùn)練集用來形成學(xué)習(xí)到的決策樹,一個(gè)分離的驗(yàn)證集用來評(píng)估這個(gè)決策樹在后續(xù)數(shù)據(jù)上的精度,確切地說是用來評(píng)估修剪這個(gè)決策樹的影響。這個(gè)方法的動(dòng)機(jī)是:

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。