資源描述:
《數(shù)據(jù)挖掘中決策樹分類算法的分析》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、萬方數(shù)據(jù)數(shù)據(jù)挖掘中決策樹分類算法的研究的定義可以得知,其主要功能和用途便是用于預(yù)測新的數(shù)據(jù),正好可以用于個(gè)人信用等級評定系統(tǒng)中,用以預(yù)測新客戶的信用等級情況。綜上所述,要解決當(dāng)前商業(yè)銀行對個(gè)人貸款風(fēng)險(xiǎn)管理存在的缺陷,利用已有的客戶數(shù)據(jù)預(yù)測新客戶的信用等級,建立一套完整的個(gè)人信用等級評定系統(tǒng),需要利用數(shù)據(jù)挖掘技術(shù)中分類方法。由此確定課題研究的主題是:學(xué)習(xí)研究數(shù)據(jù)挖掘中分類方法,將其應(yīng)用到商業(yè)銀行個(gè)人信用等級評定中,建立一套合理可行的個(gè)人信用等級評定系統(tǒng)。1.3確定分類方法分類算法發(fā)展至今,其技術(shù)應(yīng)用都已經(jīng)較為成熟,而且常見的種類比較多,但并不是每一種都適用于商業(yè)銀行中的個(gè)人信用等級評定,要經(jīng)
2、過綜合對比,分析各種方法的優(yōu)缺點(diǎn),才能決定最適合的分類方法。1.3.1常見分類方法分類過程主要有兩個(gè)步驟:一是通過建模(分類器)來表現(xiàn)預(yù)定的訓(xùn)練集:二是利用模型進(jìn)行預(yù)測分類n1。分類在診斷病情、預(yù)測性能、購物選擇和信譽(yù)證實(shí)等實(shí)際中的應(yīng)用成功案例比較多,技術(shù)也比較成熟瞳1。目前,分類挖掘技術(shù)在各個(gè)領(lǐng)域建立的典型模型主要有:決策樹、線性回歸、神經(jīng)網(wǎng)絡(luò)、基于規(guī)則模型和貝葉斯信念網(wǎng)絡(luò)模型等n1。(1)決策樹分類H3決策樹采用自頂向下的方式遞歸建立模型,致力于從無規(guī)則、無秩序的數(shù)據(jù)中推出到分類規(guī)則,最終呈樹狀結(jié)構(gòu)。決策樹每進(jìn)行一次分裂,都會(huì)在結(jié)點(diǎn)處進(jìn)行一次屬性值比較,判斷下一步的分支走向,直到在葉結(jié)
3、點(diǎn)出得到結(jié)論。最終形成的決策樹就是一個(gè)完整模型和表達(dá)式規(guī)則,一條路徑對應(yīng)一條規(guī)則。決策樹的優(yōu)點(diǎn):簡單高效、通俗易懂。在學(xué)習(xí)過程中,只要能將“屬性一結(jié)論”規(guī)則表達(dá)式總結(jié)出來,用戶就能直接使用。(2)貝葉斯分類畸1貝葉斯分類算法的核心是概率統(tǒng)計(jì)知識,在使用時(shí),首當(dāng)其沖應(yīng)該獲得概率的初始知識。該算法使用貝葉斯定理計(jì)算未知類別樣本所屬類別,由于貝葉斯定理受屬性間獨(dú)立性影響,因而屬性間獨(dú)立性越強(qiáng)、分類誤差率越低,反之則越高。3萬方數(shù)據(jù)碩士學(xué)位論文該算法的優(yōu)點(diǎn):誤差率低、方法簡單、運(yùn)行速度快,能運(yùn)用到大型數(shù)據(jù)集中。(3)基于支持向量機(jī)分類嗨3該算法的基礎(chǔ)是數(shù)學(xué)理論中統(tǒng)計(jì)學(xué)理論及其優(yōu)化技術(shù)。僅使用正例集
4、作為輸入數(shù)據(jù),識別正例集中的孤立點(diǎn)作為反例,再按照一定的標(biāo)準(zhǔn)遞歸完成分類。其優(yōu)點(diǎn)是:非線性、維數(shù)及泛化能力等方面明顯優(yōu)于決策樹等分類方法。缺點(diǎn)在于:按照時(shí)間順序收集數(shù)據(jù)間的關(guān)聯(lián)關(guān)系未被考慮、向量機(jī)需要隨時(shí)間變化進(jìn)行重新訓(xùn)練。(4)基于AIS模型分類算法"1該算法的分類思想:尋找樣本集合中主要類別的分類規(guī)則,將樣本集劃分為一個(gè)主類和其他類,再對其他類按照同樣的方式遞歸劃分。算法分類的同時(shí)產(chǎn)生規(guī)則,過程中多次利用陰性選擇算子對初始規(guī)則集、最終規(guī)則集、遺傳算法進(jìn)化后的規(guī)則反復(fù)檢驗(yàn),刪除不符合條件的規(guī)則,最終得到完整的規(guī)則集合。其他一些比較常見的分類算法還包括:神經(jīng)網(wǎng)絡(luò)、粗糙集合方法、k最鄰近分類
5、和模糊集方法等。1.3.2分類方法判定標(biāo)準(zhǔn)數(shù)據(jù)挖掘分類方法發(fā)展至今,技術(shù)成熟、種類較多,要通過其建立一套合理可行、適合商業(yè)銀行現(xiàn)狀的個(gè)人信用等級評定系統(tǒng),就必須要有一個(gè)科學(xué)的標(biāo)準(zhǔn)來確定研究方法。經(jīng)過查閱銀行關(guān)于個(gè)人信用等級評定的相關(guān)文獻(xiàn)以及在中國農(nóng)業(yè)銀行貴陽市花溪區(qū)支行等單位實(shí)地調(diào)查論證,可以依據(jù)以下幾個(gè)方面的標(biāo)準(zhǔn)來確定用于研究的分類方法。分類精度:也就是分類預(yù)測的準(zhǔn)確率。在商業(yè)銀行實(shí)際運(yùn)行過程中,錯(cuò)誤的將一個(gè)信用差的客戶評定為信用好的客戶,并錯(cuò)誤的將巨額貸款貸給其使用,這樣的情況給銀行帶來的損失是極為慘重的。因此,在個(gè)人信用等級評定系統(tǒng)中,分類預(yù)測的準(zhǔn)確率高,才能更為準(zhǔn)確的評定客戶信用等
6、級,為商業(yè)銀行規(guī)避風(fēng)險(xiǎn)、作出決策提供更為有效的幫助。模型效率:也就是通過該分類方法建立的模型,處理數(shù)據(jù)量較大的情況時(shí)的效率。在建立模型過程中,訓(xùn)練數(shù)據(jù)量越大,越能更為充分的體現(xiàn)數(shù)據(jù)的規(guī)律,建立的模型可靠性必然越高,效率也就越高,越能處理大型數(shù)據(jù)。銀行客戶數(shù)據(jù)量非常大,個(gè)人信用等級評定中需要處理的數(shù)據(jù)量也很大,因此,在選擇分類模4萬方數(shù)據(jù)數(shù)據(jù)挖掘中決策樹分類算法的研究型時(shí),效率是必須要考慮的一個(gè)重點(diǎn)因素。非數(shù)值型數(shù)據(jù)的處理:在銀行客戶數(shù)據(jù)中,很多數(shù)據(jù)是非數(shù)值型數(shù)據(jù),如:借貸人的工作性質(zhì),其對應(yīng)的數(shù)據(jù)便是失業(yè)、普通員工、公務(wù)員、教師、醫(yī)生等非數(shù)值型數(shù)據(jù),而在評定借貸人的信用等級時(shí),工作性質(zhì)又是
7、必須要考慮的重點(diǎn)因素,這就要求選擇的分類模型必須要有處理非數(shù)值型數(shù)據(jù)的能力。運(yùn)行速度:模型的運(yùn)行速度也是必須要考慮的一個(gè)因素。運(yùn)行速度越快便能節(jié)約大量的時(shí)間成本,方便銀行員工辦理更多的業(yè)務(wù),為銀行帶來更多的效益。模型結(jié)構(gòu):除上述因素外,模型結(jié)構(gòu)也是一個(gè)需要考慮的因素。模型結(jié)構(gòu)越簡單,在應(yīng)用過程中,越不需要考慮更多的專業(yè)背景知識,建立的模型可擴(kuò)展性也就越高,實(shí)用性必然也就更高。1.3.3確定分類方法通過前面對常見分類算法的