數(shù)據(jù)挖掘中屬性選擇算法的分析與研究

數(shù)據(jù)挖掘中屬性選擇算法的分析與研究

ID:36681316

大?。?.53 MB

頁數(shù):80頁

時間:2019-05-13

數(shù)據(jù)挖掘中屬性選擇算法的分析與研究_第1頁
數(shù)據(jù)挖掘中屬性選擇算法的分析與研究_第2頁
數(shù)據(jù)挖掘中屬性選擇算法的分析與研究_第3頁
數(shù)據(jù)挖掘中屬性選擇算法的分析與研究_第4頁
數(shù)據(jù)挖掘中屬性選擇算法的分析與研究_第5頁
資源描述:

《數(shù)據(jù)挖掘中屬性選擇算法的分析與研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、北京交通大學(xué)碩士學(xué)位論文數(shù)據(jù)挖掘中屬性選擇算法的分析與研究姓名:郭維維申請學(xué)位級別:碩士專業(yè):計算機應(yīng)用技術(shù)指導(dǎo)教師:王志海20081201摘要數(shù)據(jù)挖掘技術(shù)提供了海量數(shù)據(jù)分析的一種有效方法。目前,數(shù)據(jù)挖掘在零售,軍事,商業(yè)智能,金融等眾多領(lǐng)域都得到了廣泛的應(yīng)用。通常數(shù)據(jù)挖掘算法對數(shù)據(jù)的質(zhì)量都有較高的要求,如冗余度小,相關(guān)程度高,噪音低等。但是實際中產(chǎn)生的業(yè)務(wù)數(shù)據(jù)往往不具有這些特點,因此對數(shù)據(jù)挖掘的數(shù)據(jù)進行預(yù)處理就成為一項重要的任務(wù)。屬性選擇就是對數(shù)據(jù)挖掘中的數(shù)據(jù)進行預(yù)處理的一個很重要的步驟。一個好的屬性選擇方法可以有效地減少數(shù)據(jù)的冗余度和降低數(shù)據(jù)的維度,使

2、得數(shù)據(jù)挖掘算法在經(jīng)過處理的數(shù)據(jù)集合上有更加良好的表現(xiàn)。本文首先介紹了數(shù)據(jù)挖掘的基本思想與處理步驟,在此基礎(chǔ)上進一步闡述了屬性選擇對數(shù)據(jù)挖掘的重要意義,并針對屬性選擇的步驟和屬性選擇方法進行了詳細的分析。同時,結(jié)合數(shù)據(jù)挖掘研究平臺Weka,分析了屬性選擇算法的設(shè)計與實現(xiàn),深入剖析了屬性選擇算法的運行過程。進而,實現(xiàn)了一種基于信息增益和遺傳算法結(jié)合的屬性選擇方法,并通過大量的實驗分析,論述了這種方法存在的問題。最后,提出了一種基于最小描述長度和遺傳算法結(jié)合的屬性選擇方法,這種方法采用最小描述長度作為對屬性集合進行評價,使用遺傳算法作為對屬性集合的空間進行搜索,

3、對于搜索過程中的每個屬性集合都使用最小描述長度標(biāo)準(zhǔn)進行評價,確定這個屬性集合是否可以繼續(xù)保留在搜索過程中。該方法保留了遺傳算法的魯棒性和高效性,不僅可以在較短的時間內(nèi)發(fā)現(xiàn)屬性子集,而且利用最小描述長度作為評價標(biāo)準(zhǔn)選擇出來的屬性子集在用于分類時可以達到更好的分類效果。大量的實驗同時表明這種方法在絕大部分?jǐn)?shù)據(jù)集上都有良好的性能,并且其平均錯誤率優(yōu)于Weka平臺上已實現(xiàn)的那種基于遺傳算法的屬性選擇方法。關(guān)鍵詞:數(shù)據(jù)挖掘:屬性選擇;最小描述長度;遺傳算法分類號:TP301.6本文得到國家自然科學(xué)基金項目資助(基金項目編號:60673089)VABSlRACTABS

4、TRACTDataminingtechniqueshavebeenprovidinganeffectiveandefficientmethodfordataanalysis,whichhavebeenwidelyusedinretailing,militaryoperation,businessintelligence,financeandmanyotherdomains.Thealgorithmsindataminingusuallyrequiremuchmorequalifieddata,suchassmallredundancy,highcorrel

5、ation,andlownoise.However,realworlddataoftendonotmeetthesecharacteristics,datapre..processingsinadvancehavebeenbecomingoneofimportanttasksindatamining.Attributeselectionshouldbeakeystepindatapre—processings.Anybetterattributeselectionmethodcouldreducedataredundancyanddimensionsofd

6、ataeffectivelyandefficiently,makingdataminingalgorithmsmoreeffectiveonthedatawhathavebeenpre—processed.ThisthesisfirstintroducedthebaSicideaSofdatamininganditsprocessingsteps,thendemonstratedtheimportanceonattributeselectionfordatamining,andoutlinedmainstepsandmethodsofattributese

7、lectionindetail.Meanwhile,itfocusedononeofdataminingresearchplatforms—Weka,mainlyontheanalysisofdesignandimplementationforattributeselectionalgorithms,andadetailanalysisofattributeselectionoperations.Then,anattributeselectionmethodbasedoninformationgainandgeneticalgorithmispresent

8、ed.Discussionsonexperimentalresul

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。