資源描述:
《關(guān)聯(lián)規(guī)則eclat算法改進研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、重慶大學(xué)碩士學(xué)位論文中文摘要摘要數(shù)據(jù)挖掘是從海量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的知識,并最終形成可理解的模式的非平凡過程?,F(xiàn)今的數(shù)據(jù)庫系統(tǒng)已經(jīng)能夠?qū)崿F(xiàn)查詢、統(tǒng)計和報表,但處理方式相對單一,都只是對一定范圍內(nèi)的數(shù)據(jù)進行簡單的數(shù)字化處理,而不能提取隱藏在這些數(shù)據(jù)背后的內(nèi)在信息。隨著各行各業(yè)廣泛應(yīng)用信息管理系統(tǒng),帶來了數(shù)據(jù)量的急速膨脹,人們迫切希望有一種功能,它能夠提供更高層次的數(shù)據(jù)分析,從而更好地支持決策或科研工作。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中關(guān)聯(lián)分析的運用,是數(shù)據(jù)挖掘一個非常重要的學(xué)科,具有很高的理論價值和廣泛的應(yīng)用前景
2、。關(guān)聯(lián)規(guī)則反映一個事物與其他事物之間的相互依存性和關(guān)聯(lián)性。如果兩個或多個事物之間存在著一定的關(guān)聯(lián)關(guān)系,那么其中一個事物就能夠通過其他事物預(yù)測到。關(guān)聯(lián)規(guī)則挖掘算法用于發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,諸多的研究人員和學(xué)者對其進行了大量的研究?,F(xiàn)有的關(guān)聯(lián)規(guī)則算法大多數(shù)是基于Apriori和FP-growth的迭代算法。通常數(shù)據(jù)庫有水平數(shù)據(jù)表示和垂直數(shù)據(jù)表示兩種形式,本文深入分析了頻繁項集的挖掘問題,描述了現(xiàn)有的關(guān)聯(lián)規(guī)則分類和挖掘算法,并著重對傳統(tǒng)Apriori算法和AprioriTid算法進行分析,指出了他們各自的優(yōu)缺點。對于挖掘算法的性能,
3、通常采用垂直數(shù)據(jù)表示的算法要高于水平數(shù)據(jù)表示,Eclat算法是首個采用垂直數(shù)據(jù)表示的經(jīng)典關(guān)聯(lián)挖掘算法。本文首先對Eclat算法進行了深入地研究和分析,并在此基礎(chǔ)上提出了一種改進算法——hEclat。該算法把散列表與布爾矩陣相結(jié)合,提出散列布爾矩陣的思想,對傳統(tǒng)Eclat算法中求兩個Tidsets集合交集的操作進行改進,以提高求交集的速度,從而達到提升整個算法生成頻集、挖掘關(guān)聯(lián)規(guī)則的效率。對關(guān)聯(lián)規(guī)則挖掘而言,已有的很多研究只注重解決算法的時間效率,而忽視了關(guān)聯(lián)規(guī)則的多維特性,通過在關(guān)系數(shù)據(jù)庫中提取出用戶感興趣的多維關(guān)聯(lián)規(guī)
4、則,在商務(wù)決策方面將更具指導(dǎo)意義,也更能夠滿足實際情況的需要。本文在傳統(tǒng)Eclat算法基礎(chǔ)上提出MD-Eclat算法,并構(gòu)造了一種新的數(shù)據(jù)預(yù)處理方法,實現(xiàn)從關(guān)系數(shù)據(jù)庫的普通表或視圖中進行多維關(guān)聯(lián)挖掘。由于算法利用了垂直數(shù)據(jù)表示的結(jié)構(gòu)特征,因此不必對數(shù)據(jù)庫進行多次掃描,也不必頻繁構(gòu)造模式樹,只需要掃描數(shù)據(jù)庫一次,改進后的算法執(zhí)行時間效率高于同類算法。關(guān)鍵詞:關(guān)聯(lián)規(guī)則,垂直數(shù)據(jù)表示,散列,布爾矩陣,多維關(guān)聯(lián)規(guī)則I重慶大學(xué)碩士學(xué)位論文英文摘要ABSTRACTDataminingisanon-trivialprocesswhi
5、chistoobtaineffective,novelandpotentiallyusefulknowledgefromthemassofdataandultimatelyformunderstandablepatterns.Databasesystemsofnowadayshavebeenabletoachievequery,statisticsandreports,butthetreatmentwererelativelyhomogeneouswhichareonlysimpledigitalprocessingf
6、oracertainrangeofdata,andalsocannotextracttheinherentinformationhiddeninthebackofdata.WiththewidelyusageofInformationManagementSysteminvariousindustryfields,itbringabouttherapidexpansionoftheamountofdata.Therefore,peopleareeagertohaveafunctionwhichcanprovideahig
7、herlevelofdataanalysis,sothatthedecision-makingandscientificworkcanbebettersupported.Associationruleminingistheapplicationofassociatedanalysisindatamining,whichisaveryimportantsubjectwithhightheoreticalvalueandextensiveapplication.Associationrulesreflecttheinter
8、dependenceandthecorrelationbetweenonethingandtheothers.Iftherearesomecorrelationsamongtwoormorethings,thenwecanpredictoneofthethingsthroughotherthings.Associationrule