資源描述:
《基于決策樹的數(shù)據(jù)挖掘方法在化學(xué)模式分類中的應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、浙江大學(xué)碩士學(xué)位論文基于決策樹的數(shù)據(jù)挖掘方法在化學(xué)模式分類中的應(yīng)用姓名:李琳申請學(xué)位級別:碩士專業(yè):化學(xué)工程指導(dǎo)教師:陳德釗20050101摘要隨著計算機技術(shù)和現(xiàn)代測試分析技術(shù)的發(fā)展,舀:化學(xué)化I:領(lǐng)域移{祟了人fli的數(shù)折:。數(shù)據(jù)挖掘技術(shù)的產(chǎn),E和發(fā)展為從這些數(shù)掂獲以有用知訂l提供了f,/J的1.具。數(shù)據(jù)挖掘1具的有敞性,總是與各個領(lǐng)域的數(shù)據(jù)特點緊密的結(jié)合在一起。本文針對化學(xué)模式分類·I,的數(shù)據(jù)具有高維、復(fù)蓯線性和帶t-J噪爵的特j_,利川決策樹及其預(yù)處理過程,對連續(xù)屬性的離散化、屬’陀篩選、規(guī)則抉取、化學(xué)梭,℃分炎建模等進行了研究,爿‘介紹了各種數(shù)據(jù)挖掘方法和決策樹的基本理論,以
2、及化。學(xué)化工數(shù)據(jù)挖掘所面臨的問題。全文主要內(nèi)容如卜:(1)山于化學(xué)分類數(shù)據(jù)集人多為連續(xù)型數(shù)據(jù)集,若要提高決策樹分類器的性能,須先將連續(xù)型數(shù)據(jù)離散化,以方便進步的處理過程。本文系統(tǒng)閘述了連續(xù)屬性離散化的原理、方法以及固內(nèi)外的研究現(xiàn)狀。通過分析各種算法的特點和適用性,針對實際化學(xué)數(shù)據(jù)特點,選擇最小描述長度劃分法(MDLP)對數(shù)捌上韭行離散化。與其它方法相比,MDLP算法穩(wěn)定、離散化效果令人滿意。(2)大多數(shù)數(shù)掘集都包含冗余屬性,這些冗余屬性的存存不儀增加數(shù)就i:處理的工作量和復(fù)雜程度,而且會干擾最終的分類結(jié)果,影響分類的準(zhǔn)確程度。本文將屬性選擇的概念引入化學(xué)數(shù)據(jù)分析中,介紹了屬‘陀選擇的
3、基本原理,特』ji以及各種方法。通過考慮各種方法的使用條件和化學(xué)分類數(shù)據(jù)的特點,使川IJasVegasFilter(LVF)算法對離散邗數(shù)據(jù)進行選擇。結(jié)糶證Hjj:該過程能夠從原屬性集中篩選出與分類聯(lián)系最緊密的屬性子集,簡化了計算過程,I刊時也赴·定千l£度上提高了分類準(zhǔn)確性。(3)介紹了決策樹方法的基本原理和幾種常用決策樹算法。洋自lJ討論了C4.5算法特點.并針對其體的實例建立C4.5決策樹。結(jié)果證明該方法分類性能良女r。與常用的神經(jīng)網(wǎng)絡(luò)方法相比,由決策樹發(fā)現(xiàn)的分類規(guī)則表達方式直觀,便-J:理解,7卜成速度也非???。和統(tǒng)計分析方法相比,決策樹不依賴屬r陀值的分嘶,或?qū)?,ri:獨立
4、性的假設(shè),在實際應(yīng)用中也比般的統(tǒng)計分析方法更健壯。(4)決策樹方法可從大鼉數(shù)摒·},挖掘m潛存的分類j=【1識,并縣訂∞沾“觀的表達形式,易為專業(yè)人員理解和分析。對于較難處理的連續(xù)屬性.小義捉?丁基于預(yù)處彈的決策樹模型。先塒迮續(xù)屬性離散化,并作篩選,剔除?tl余數(shù)缸r:后,再[}1C4.5方法構(gòu)建決策樹,其分類模型具有良好的顱報。r{:能,適J{JJ:化’學(xué)分炎模式的挖掘,兩個實例表明應(yīng)用效果令人滿意。關(guān)鍵詞:數(shù)據(jù)挖掘,決策樹,離散化,屬性選擇,化’乒模,=I=分類ABSTRACTAsthecomputertechnologyandmodernanalyticaltechnology
5、develop.theamountol’datainchemistryandchemicalengineeringhasincreasedfast.111cappearanceanddevelopmentofdataminingsupp[iesI.ISapowerfidtoolIngainusefulinforn'mtionhiddenillalIkindsofdata.ButtheeffectoI、thesemethodshascloseconnectionwiththecharactelisticofdatajnvariablefields.Thedata(1i、chemical
6、classificationoftenhastheligatureofhigller.d油cnsiolllnoiseandcompoundlinearInthispaper,WefocusOilthediscretization,Ikatureselection.rulegeneration.a(chǎn)ndchemicalpatternmodeling.Somedataminingmethodsandthetheory+ol’decisionWeealsohayebccnintroduced.‘fhemaincontributionsinthisdissertationarcuslbll‘)
7、ws:【1)Becausethedatasetsforchemicalclassificationaremostly,continuous.theprocessol’discretizationisnecessary'toimprovethepertbmlancc011decisiontreeclassitier.Inthispaper,WeadoptMinima/Description1.engthPrinciple(MDI,f)】lodiscretiz