基于決策樹的數(shù)據(jù)挖掘方法在化學(xué)模式分類中的應(yīng)用

基于決策樹的數(shù)據(jù)挖掘方法在化學(xué)模式分類中的應(yīng)用

ID:34825726

大?。?.88 MB

頁數(shù):73頁

時間:2019-03-11

基于決策樹的數(shù)據(jù)挖掘方法在化學(xué)模式分類中的應(yīng)用_第1頁
基于決策樹的數(shù)據(jù)挖掘方法在化學(xué)模式分類中的應(yīng)用_第2頁
基于決策樹的數(shù)據(jù)挖掘方法在化學(xué)模式分類中的應(yīng)用_第3頁
基于決策樹的數(shù)據(jù)挖掘方法在化學(xué)模式分類中的應(yīng)用_第4頁
基于決策樹的數(shù)據(jù)挖掘方法在化學(xué)模式分類中的應(yīng)用_第5頁
資源描述:

《基于決策樹的數(shù)據(jù)挖掘方法在化學(xué)模式分類中的應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、浙江大學(xué)碩士學(xué)位論文基于決策樹的數(shù)據(jù)挖掘方法在化學(xué)模式分類中的應(yīng)用姓名:李琳申請學(xué)位級別:碩士專業(yè):化學(xué)工程指導(dǎo)教師:陳德釗20050101摘要隨著計算機技術(shù)和現(xiàn)代測試分析技術(shù)的發(fā)展,舀:化學(xué)化I:領(lǐng)域移{祟了人fli的數(shù)折:。數(shù)據(jù)挖掘技術(shù)的產(chǎn),E和發(fā)展為從這些數(shù)掂獲以有用知訂l提供了f,/J的1.具。數(shù)據(jù)挖掘1具的有敞性,總是與各個領(lǐng)域的數(shù)據(jù)特點緊密的結(jié)合在一起。本文針對化學(xué)模式分類·I,的數(shù)據(jù)具有高維、復(fù)蓯線性和帶t-J噪爵的特j_,利川決策樹及其預(yù)處理過程,對連續(xù)屬性的離散化、屬’陀篩選、規(guī)則抉取、化學(xué)梭,℃分炎建模等進行了研究,爿‘介紹了各種數(shù)據(jù)挖掘方法和決策樹的基本理論,以

2、及化。學(xué)化工數(shù)據(jù)挖掘所面臨的問題。全文主要內(nèi)容如卜:(1)山于化學(xué)分類數(shù)據(jù)集人多為連續(xù)型數(shù)據(jù)集,若要提高決策樹分類器的性能,須先將連續(xù)型數(shù)據(jù)離散化,以方便進步的處理過程。本文系統(tǒng)閘述了連續(xù)屬性離散化的原理、方法以及固內(nèi)外的研究現(xiàn)狀。通過分析各種算法的特點和適用性,針對實際化學(xué)數(shù)據(jù)特點,選擇最小描述長度劃分法(MDLP)對數(shù)捌上韭行離散化。與其它方法相比,MDLP算法穩(wěn)定、離散化效果令人滿意。(2)大多數(shù)數(shù)掘集都包含冗余屬性,這些冗余屬性的存存不儀增加數(shù)就i:處理的工作量和復(fù)雜程度,而且會干擾最終的分類結(jié)果,影響分類的準(zhǔn)確程度。本文將屬性選擇的概念引入化學(xué)數(shù)據(jù)分析中,介紹了屬‘陀選擇的

3、基本原理,特』ji以及各種方法。通過考慮各種方法的使用條件和化學(xué)分類數(shù)據(jù)的特點,使川IJasVegasFilter(LVF)算法對離散邗數(shù)據(jù)進行選擇。結(jié)糶證Hjj:該過程能夠從原屬性集中篩選出與分類聯(lián)系最緊密的屬性子集,簡化了計算過程,I刊時也赴·定千l£度上提高了分類準(zhǔn)確性。(3)介紹了決策樹方法的基本原理和幾種常用決策樹算法。洋自lJ討論了C4.5算法特點.并針對其體的實例建立C4.5決策樹。結(jié)果證明該方法分類性能良女r。與常用的神經(jīng)網(wǎng)絡(luò)方法相比,由決策樹發(fā)現(xiàn)的分類規(guī)則表達方式直觀,便-J:理解,7卜成速度也非???。和統(tǒng)計分析方法相比,決策樹不依賴屬r陀值的分嘶,或?qū)?,ri:獨立

4、性的假設(shè),在實際應(yīng)用中也比般的統(tǒng)計分析方法更健壯。(4)決策樹方法可從大鼉數(shù)摒·},挖掘m潛存的分類j=【1識,并縣訂∞沾“觀的表達形式,易為專業(yè)人員理解和分析。對于較難處理的連續(xù)屬性.小義捉?丁基于預(yù)處彈的決策樹模型。先塒迮續(xù)屬性離散化,并作篩選,剔除?tl余數(shù)缸r:后,再[}1C4.5方法構(gòu)建決策樹,其分類模型具有良好的顱報。r{:能,適J{JJ:化’學(xué)分炎模式的挖掘,兩個實例表明應(yīng)用效果令人滿意。關(guān)鍵詞:數(shù)據(jù)挖掘,決策樹,離散化,屬性選擇,化’乒模,=I=分類ABSTRACTAsthecomputertechnologyandmodernanalyticaltechnology

5、develop.theamountol’datainchemistryandchemicalengineeringhasincreasedfast.111cappearanceanddevelopmentofdataminingsupp[iesI.ISapowerfidtoolIngainusefulinforn'mtionhiddenillalIkindsofdata.ButtheeffectoI、thesemethodshascloseconnectionwiththecharactelisticofdatajnvariablefields.Thedata(1i、chemical

6、classificationoftenhastheligatureofhigller.d油cnsiolllnoiseandcompoundlinearInthispaper,WefocusOilthediscretization,Ikatureselection.rulegeneration.a(chǎn)ndchemicalpatternmodeling.Somedataminingmethodsandthetheory+ol’decisionWeealsohayebccnintroduced.‘fhemaincontributionsinthisdissertationarcuslbll‘)

7、ws:【1)Becausethedatasetsforchemicalclassificationaremostly,continuous.theprocessol’discretizationisnecessary'toimprovethepertbmlancc011decisiontreeclassitier.Inthispaper,WeadoptMinima/Description1.engthPrinciple(MDI,f)】lodiscretiz

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。