資源描述:
《基于粗糙集的數(shù)據(jù)挖掘改進(jìn)的屬性約簡算法研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、電子科技大學(xué)UNIVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINA碩士學(xué)位論文MASTERDISSERTATION論文題目:基于粗糙集的數(shù)據(jù)挖掘改進(jìn)的屬性約簡算法研究學(xué)科專業(yè):計算機(jī)軟件與理論指導(dǎo)教師:祝峰教授作者姓名:王麗娜班學(xué)號:200921060270萬方數(shù)據(jù)分類號密級UDC學(xué)位論文基于粗糙集的數(shù)據(jù)挖掘改進(jìn)的屬性約簡算法研究(題名和副題名)王麗娜(作者姓名)指導(dǎo)教師姓名祝峰教授電子科技大學(xué)成都(職務(wù)、職稱、學(xué)位、單位名稱及地址)申請學(xué)位級別碩士專業(yè)名稱計算機(jī)軟件與理論論文提交
2、日期2012.03論文答辯日期2012.05學(xué)位授予單位和日期電子科技大學(xué)答辯委員會主席評閱人年月日注1注明《國際十進(jìn)分類法UDC》的類號萬方數(shù)據(jù)獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得電子科技大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝意。簽名:日期:年月日關(guān)于論文使用授權(quán)的說明本學(xué)位論文作者完全了解
3、電子科技大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,有權(quán)保留并向國家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許論文被查閱和借閱。本人授權(quán)電子科技大學(xué)可以將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后應(yīng)遵守此規(guī)定)簽名:導(dǎo)師簽名:日期:年月萬方數(shù)據(jù)摘要摘要目前數(shù)據(jù)挖掘的方法有很多,本文主要研究了數(shù)據(jù)挖掘中的粗糙集方法,重點(diǎn)研究了基于粗糙集的屬性約簡算法在數(shù)據(jù)挖掘規(guī)則提取階段的應(yīng)用。粗糙集在數(shù)據(jù)挖掘中通常被用于知識的約簡,從而進(jìn)行規(guī)則的提取。屬性約簡是粗糙集
4、理論研究的核心內(nèi)容之一。本文對傳統(tǒng)的基于粗糙集的屬性約簡算法深入研究的同時進(jìn)行了改進(jìn),并針對大規(guī)模數(shù)據(jù)集的數(shù)據(jù)挖掘,提出了一種新的屬性約簡算法。粗糙集理論是一種新的處理模糊和不精確問題的重要數(shù)學(xué)工具,是一種新的數(shù)據(jù)挖掘技術(shù)。傳統(tǒng)的屬性約簡算法要么空間復(fù)雜度比較高,要么約簡不夠精確,本文提出的新的屬性約簡算法很好的解決了空間復(fù)雜度的問題,適合對數(shù)據(jù)挖掘中的大表、大文件進(jìn)行約簡,從而得出具體的規(guī)則,這是傳統(tǒng)的屬性約簡算法不能做到的。本文的主要研究內(nèi)容如下:(1)對基于粗糙集的數(shù)據(jù)挖掘研究現(xiàn)狀進(jìn)行了分析;深入研究了粗糙集相關(guān)理論知
5、識和數(shù)據(jù)挖掘相關(guān)技術(shù);將粗糙集與數(shù)據(jù)挖掘相結(jié)合,著重研究了基于粗糙集的數(shù)據(jù)挖掘模型,對粗糙集在數(shù)據(jù)挖掘中的應(yīng)用進(jìn)行了系統(tǒng)分析。(2)對幾種傳統(tǒng)的基于粗糙集的屬性約簡算法進(jìn)行了深入研究,并分析其各自的優(yōu)缺點(diǎn)。在此基礎(chǔ)上,提出了一種改進(jìn)的基于差別矩陣的屬性約簡算法,并通過實(shí)驗(yàn)驗(yàn)證其有效性。(3)針對傳統(tǒng)屬性約簡算法在應(yīng)用中暴露出的問題,本文借助數(shù)據(jù)結(jié)構(gòu)中的樹型結(jié)構(gòu)建立了多叉樹理論,并在此基礎(chǔ)上提出了一種新的基于多叉樹的屬性約簡算法。該算法相對于傳統(tǒng)屬性約簡算法來說空間復(fù)雜度較低,適合對數(shù)據(jù)挖掘中的大表、大文件進(jìn)行約簡,從而得出具
6、體的規(guī)則,較傳統(tǒng)的屬性約簡算法有很大優(yōu)勢。(4)在UCI中選取三個不同規(guī)模的數(shù)據(jù)集作為測試訓(xùn)練集,通過對兩個對比算法進(jìn)行詳細(xì)的仿真實(shí)驗(yàn),驗(yàn)證了基于多叉樹算法的可行性和有效性。關(guān)鍵詞:數(shù)據(jù)挖掘,粗糙集,屬性約簡I萬方數(shù)據(jù)ABSTRACTABSTRACTCurrently,therearemanycommonlyuseddataminingmethods,andthisthesismainlystudiestheroughsetsmethodindatamining,andfocusesonthealgorithmsbasedo
7、nroughsetsintheapplicationoftheruleextractionstage.Roughsetsindataminingisusuallyusedforknowledgereduction,toextracttherule.Attributereductionisoneofthecorecontentofroughsettheory.Thisthesisstudiestheattributereductionalgorithmbasedonroughsetsin-depthandputsforward
8、theimprovementmethod.Atthesametime,anewattributereductionalgorithmisproposed.Roughsetstheoryisanewmathematicaltoolthatcandealwiththefuzzyandimpre