資源描述:
《數(shù)據(jù)挖掘常用分類算法探究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、數(shù)據(jù)挖掘常用分類算法探究摘要:數(shù)據(jù)庫、數(shù)據(jù)倉庫以及其他存儲信息庫中潛藏著很多與商業(yè)、科學(xué)研究等活動的決策有關(guān)的數(shù)據(jù)和知識。對于數(shù)據(jù)挖掘中的數(shù)據(jù)分析,通常有兩種常見的方法,即分類和預(yù)測,首先對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分類歸納,然后根據(jù)分類規(guī)則可以得到比較有價值的數(shù)據(jù),然后我們可以根據(jù)這個數(shù)據(jù)來預(yù)測得到一些包含未來趨勢的信息。在常見的分類算法中,決策樹算法是一個有著很好擴(kuò)展性的算法,可以應(yīng)用到大型數(shù)據(jù)庫中,可以對多種數(shù)據(jù)類型進(jìn)行處理,分類模式容易轉(zhuǎn)化為分類規(guī)則,結(jié)果也十分的淺顯易懂易于理解。該文主要先介紹了幾種常用的分類算法,然后具體介紹決策樹算法的過程以及在分類算法實際應(yīng)用中的優(yōu)缺
2、點。關(guān)鍵詞:數(shù)據(jù)挖掘;分類算法;人工智能;決策樹中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2013)34-7667-031數(shù)據(jù)挖掘基本分類算法簡要介紹數(shù)據(jù)分類技術(shù)在日常很多領(lǐng)域都有過應(yīng)用,譬如銀行經(jīng)常要使用分類模型來進(jìn)行相應(yīng)的商業(yè)評估;學(xué)校的教務(wù)系統(tǒng)要使用分類模型對學(xué)生的成績以及各種評價來進(jìn)行評估;研究生、博士生等發(fā)表論文,使用數(shù)據(jù)挖掘分類模型來對各種期刊進(jìn)行細(xì)致的分類,這樣才能有效的評價科研能力的好壞;還有例如百度、谷歌這樣的大型搜索引擎,提供的推薦功能,分類技術(shù)已經(jīng)融入了我們?nèi)粘I畹姆椒矫婷?,各個領(lǐng)域也提出了很多分類算法理論。最開始的數(shù)據(jù)挖掘分
3、類算法都是基于內(nèi)存的算法。經(jīng)過長時間的發(fā)展,數(shù)據(jù)挖掘算法也由使用內(nèi)存開始逐步地使用外存以獲得處理大數(shù)據(jù)的能力,以下對一些經(jīng)典的分類算法進(jìn)行介紹。1)決策樹分類算法決策樹分類算法是數(shù)據(jù)挖掘十分經(jīng)典的分類算法。它使用自頂向下遞歸的方式構(gòu)造決策樹模型。決策樹上的每一個結(jié)點都采用信息增益度量來選擇所要測試的屬性。也可以從已經(jīng)生成的決策樹上提取出分類規(guī)則。2)向量空間模型VSM算法VSM的概念十分簡單,就是把對文本內(nèi)容的處理轉(zhuǎn)化為對空間向量中的向量運(yùn)算,而且可以使用空間中的相似度參數(shù)來表示文本中語義的相似度,非常的直觀簡單。在向量空間模型中,文本包含了各種機(jī)器可以讀取的記錄信息。不妨
4、用D表示,文本的特征集合可以表示為D(Tl,T2,…,Tn),其中Tk是特征項,10.1),我們認(rèn)為數(shù)據(jù)應(yīng)該按照這個節(jié)點進(jìn)行分裂,也就是說這個屬性(house)構(gòu)成了我們的一次決策過程。2)再按照house分裂的每個數(shù)據(jù)集上,針對其他屬性(house除外)進(jìn)行與1)相同的過程,直到信息增益不足以滿足數(shù)據(jù)分裂的條件。這樣,我們就得到了一個關(guān)于屬性數(shù)據(jù)劃分的一棵樹。可以作為class字段未知的數(shù)據(jù)的決策依據(jù)。3)經(jīng)過編碼運(yùn)行后得到實驗結(jié)果如下圖:根據(jù)該決策樹的輸出,我們可以得到如下的挖掘規(guī)則:首先根據(jù)house屬性判斷,當(dāng)house屬性為1時,走到索引為2的節(jié)點,此時該節(jié)點是葉
5、子節(jié)點,預(yù)測值class為1.4)決策樹算法的評價根據(jù)上面實驗的分析,我們可以發(fā)現(xiàn)決策樹的一些優(yōu)缺點:決策樹算法所產(chǎn)生的分類規(guī)則十分的易于人理解,準(zhǔn)確率很高;但是在構(gòu)建決策樹的過程中,需要對數(shù)據(jù)集進(jìn)行多次的掃描排序,效率還有待進(jìn)一步提高。3總結(jié)本文主要先詳細(xì)介紹了數(shù)據(jù)挖掘分類技術(shù)目前的常用經(jīng)典算法,后面部分主要描述了決策樹算法的實現(xiàn),決策樹算法是一個基于信息炳理論的具有良好性能的分類算法。該文通過對數(shù)據(jù)的分析,然后通過編程實現(xiàn)決策樹算法對該數(shù)據(jù)進(jìn)行處理,得到一個決策樹的結(jié)構(gòu),根據(jù)該樹可以歸納得到分類規(guī)則,最后可以得到評價結(jié)果。決策樹算法對數(shù)據(jù)無任何前置要求,應(yīng)用在金融和教育
6、產(chǎn)業(yè)中效果也比較好,故發(fā)展前景十分良好,可以繼續(xù)深入研究。參考文獻(xiàn):[1]郭超峰,李梅蓮?基于ID3算法的決策樹研究與應(yīng)用[J]?許昌學(xué)院學(xué)報,2007(2).[2]Pang-NingTan,SteinBachM,KumarV.數(shù)據(jù)挖掘?qū)д揫M].范明,范宏建,譯.北京:人民郵電出版社,2007.[3]劉惟一,李維華.智能數(shù)據(jù)分析[M].北京:科學(xué)出版社,2007.