資源描述:
《數(shù)據(jù)挖掘中屬性選擇算法的分析與研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、北京交通大學(xué)碩士學(xué)位論文數(shù)據(jù)挖掘中屬性選擇算法的分析與研究姓名:郭維維申請學(xué)位級別:碩士專業(yè):計算機應(yīng)用技術(shù)指導(dǎo)教師:王志海20081201摘要數(shù)據(jù)挖掘技術(shù)提供了海量數(shù)據(jù)分析的一種有效方法。目前,數(shù)據(jù)挖掘在零售,軍事,商業(yè)智能,金融等眾多領(lǐng)域都得到了廣泛的應(yīng)用。通常數(shù)據(jù)挖掘算法對數(shù)據(jù)的質(zhì)量都有較高的要求,如冗余度小,相關(guān)程度高,噪音低等。但是實際中產(chǎn)生的業(yè)務(wù)數(shù)據(jù)往往不具有這些特點,因此對數(shù)據(jù)挖掘的數(shù)據(jù)進行預(yù)處理就成為一項重要的任務(wù)。屬性選擇就是對數(shù)據(jù)挖掘中的數(shù)據(jù)進行預(yù)處理的一個很重要的步驟。一個好的屬性選擇方法可以有效地減少數(shù)據(jù)的冗余度和降低數(shù)據(jù)的維度,使
2、得數(shù)據(jù)挖掘算法在經(jīng)過處理的數(shù)據(jù)集合上有更加良好的表現(xiàn)。本文首先介紹了數(shù)據(jù)挖掘的基本思想與處理步驟,在此基礎(chǔ)上進一步闡述了屬性選擇對數(shù)據(jù)挖掘的重要意義,并針對屬性選擇的步驟和屬性選擇方法進行了詳細的分析。同時,結(jié)合數(shù)據(jù)挖掘研究平臺Weka,分析了屬性選擇算法的設(shè)計與實現(xiàn),深入剖析了屬性選擇算法的運行過程。進而,實現(xiàn)了一種基于信息增益和遺傳算法結(jié)合的屬性選擇方法,并通過大量的實驗分析,論述了這種方法存在的問題。最后,提出了一種基于最小描述長度和遺傳算法結(jié)合的屬性選擇方法,這種方法采用最小描述長度作為對屬性集合進行評價,使用遺傳算法作為對屬性集合的空間進行搜索,
3、對于搜索過程中的每個屬性集合都使用最小描述長度標(biāo)準(zhǔn)進行評價,確定這個屬性集合是否可以繼續(xù)保留在搜索過程中。該方法保留了遺傳算法的魯棒性和高效性,不僅可以在較短的時間內(nèi)發(fā)現(xiàn)屬性子集,而且利用最小描述長度作為評價標(biāo)準(zhǔn)選擇出來的屬性子集在用于分類時可以達到更好的分類效果。大量的實驗同時表明這種方法在絕大部分?jǐn)?shù)據(jù)集上都有良好的性能,并且其平均錯誤率優(yōu)于Weka平臺上已實現(xiàn)的那種基于遺傳算法的屬性選擇方法。關(guān)鍵詞:數(shù)據(jù)挖掘:屬性選擇;最小描述長度;遺傳算法分類號:TP301.6本文得到國家自然科學(xué)基金項目資助(基金項目編號:60673089)VABSlRACTABS
4、TRACTDataminingtechniqueshavebeenprovidinganeffectiveandefficientmethodfordataanalysis,whichhavebeenwidelyusedinretailing,militaryoperation,businessintelligence,financeandmanyotherdomains.Thealgorithmsindataminingusuallyrequiremuchmorequalifieddata,suchassmallredundancy,highcorrel
5、ation,andlownoise.However,realworlddataoftendonotmeetthesecharacteristics,datapre..processingsinadvancehavebeenbecomingoneofimportanttasksindatamining.Attributeselectionshouldbeakeystepindatapre—processings.Anybetterattributeselectionmethodcouldreducedataredundancyanddimensionsofd
6、ataeffectivelyandefficiently,makingdataminingalgorithmsmoreeffectiveonthedatawhathavebeenpre—processed.ThisthesisfirstintroducedthebaSicideaSofdatamininganditsprocessingsteps,thendemonstratedtheimportanceonattributeselectionfordatamining,andoutlinedmainstepsandmethodsofattributese
7、lectionindetail.Meanwhile,itfocusedononeofdataminingresearchplatforms—Weka,mainlyontheanalysisofdesignandimplementationforattributeselectionalgorithms,andadetailanalysisofattributeselectionoperations.Then,anattributeselectionmethodbasedoninformationgainandgeneticalgorithmispresent
8、ed.Discussionsonexperimentalresul