資源描述:
《數(shù)據(jù)挖掘中屬性約簡(jiǎn)與分類(lèi)算法地研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、摘要數(shù)據(jù)挖掘是指從數(shù)據(jù)庫(kù)中抽取隱含的、具有潛在使用價(jià)值信息的過(guò)程,是一種新型的數(shù)據(jù)分析技術(shù),己經(jīng)被廣泛應(yīng)用于金融、保險(xiǎn)、政府、教育、運(yùn)輸以及國(guó)防等領(lǐng)域。粗糙集理論是波蘭數(shù)學(xué)家Z.Pawlak于1982年提出的一種新的處理模糊和不確定性知識(shí)的數(shù)學(xué)工具。本文結(jié)合粗糙集理論著重探討了數(shù)據(jù)挖掘中屬性約簡(jiǎn)與分類(lèi)這兩個(gè)核心問(wèn)題。以信息系統(tǒng)為研究對(duì)象,通過(guò)研究完備信息系統(tǒng)下經(jīng)典粗糙集模型的屬性約簡(jiǎn)算法理論和方法,并指出了其中存在的不足,提出了一種基于粗糙集的改進(jìn)的屬性約簡(jiǎn)算法;對(duì)傳統(tǒng)的決策樹(shù)算法通過(guò)實(shí)例分析,指出算法中存在的問(wèn)題,
2、提出了一種傳統(tǒng)的決策樹(shù)算法的改進(jìn)算法——基于屬性加權(quán)平均重要性的決策樹(shù)構(gòu)造算法WMAS。本文主要工作及創(chuàng)新點(diǎn)如下:1.在對(duì)各種屬性約簡(jiǎn)啟發(fā)式算法中屬性重要性研究基礎(chǔ)上,提出了屬性加權(quán)平均重要性的概念,該重要性綜合考慮了屬性對(duì)決策分類(lèi)的重要性和在屬性中的重要性。2.如何高效的實(shí)現(xiàn)粗糙集的屬性約簡(jiǎn),一直是粗糙集理論研究的重要內(nèi)容。理論已經(jīng)證明,搜索粗糙集屬性約簡(jiǎn)的最優(yōu)解是一個(gè)NP問(wèn)題,因此,目前的研究已集中于如何求得屬性約簡(jiǎn)的次優(yōu)解上。本文先討論了經(jīng)典粗糙集的約簡(jiǎn)算法,在此基礎(chǔ)上提出了一種基于粗糙集的屬性約簡(jiǎn)改進(jìn)算法,該
3、算法在屬性約簡(jiǎn)中不僅考慮到屬性的重要性而且考慮了屬性的信息量,能夠得到信息系統(tǒng)的一個(gè)約簡(jiǎn),且不需要求核,減少計(jì)算量,提高計(jì)算速度。3.通過(guò)對(duì)基于信息熵的決策樹(shù)構(gòu)造算法的研究得出,該方法存在的主要問(wèn)題是一棵決策樹(shù)中子數(shù)的重復(fù),以及有些屬性在一棵決策樹(shù)中的某一路徑上被多次檢驗(yàn),本文將屬性加權(quán)平均重要性用于選擇分離屬性來(lái)構(gòu)造決策樹(shù),且實(shí)現(xiàn)了基于屬性加權(quán)平均重要性的決策樹(shù)構(gòu)造算法WMAS,該方法可以克服上述缺點(diǎn),降低了復(fù)雜度,提高了分類(lèi)精度。本文通過(guò)實(shí)例和實(shí)驗(yàn)對(duì)提出的算法進(jìn)行了驗(yàn)證和證明。關(guān)鍵詞:數(shù)據(jù)挖掘;粗糙集理論;加權(quán)平
4、均屬性重要性;屬性約簡(jiǎn);決策樹(shù)IIAbstractDataMiningmeanstheprocessofextractingcrypticandpotentialhelpfulinformationfromamassofData.ItisonekindofbrandnewDataanalysistechnologyandpopularinthefiledofbankingfinance,insurance,government,education,transportationandnationaldefenseetc
5、.Thetheoryofroughsets,presentedbyPolishmathematicianPawlakZ.,isapowerfulmathematicaltoolforanalyzinguncertain,fuzzyknowledge.Basedontheroughsets,thisdissertationfocusesonthecoreissuesincludingattributereductionandclassificationindatamining.Itpointsouttheshortco
6、mingsbystudyingthetheoryandmethodofattributereductionalgorithmsincompleteinformationsystem.Andanimprovedalgorithmforattributereductionbasedonroughsetsisproposed.Byanalyzingthetraditionaldecisiontreealgorithmwithinstance,theproblemsfromthetraditionaldecisiontree
7、algorithmarepointedoutandtheimprovedoftraditionaldecisiontreealgorithm,whichisnameddecisiontreeconstructingalgorithmbasedontheweightedmeanattributesignificance(WMAS),isputforward.Mainresearchresultsareasfollows:1.Aconceptoftheweightedmeanattributesignificance,w
8、hichconsidersboththeimportanceofattributeanditscontributiontoclassification,isproposedbasedonthestudyofattributesignificanceinvariousattributereductionalgorithms.2.Howtoachi