資源描述:
《關(guān)聯(lián)規(guī)則挖掘算法的研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。
1、太原理工大學碩士研究生學位論文㈨㈣㈨㈨㈣Ⅲ㈣叭㈨洲Y2156161關(guān)聯(lián)規(guī)則挖掘算法的研究摘要隨著時代的快速發(fā)展和數(shù)據(jù)庫技術(shù)的日臻成熟,產(chǎn)生的數(shù)據(jù)量以幾何倍數(shù)增長,我們迫切地希望從海量數(shù)據(jù)背后挖掘出某些規(guī)律或者有價值的東西,也就是信息,來指導我們未來的發(fā)展。而數(shù)據(jù)挖掘正滿足了這樣的需要,它是一種新的信息分析技術(shù),利用計算機‘21從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們預(yù)先不知道的、具有潛在利用價值信息和知識的過程。目前,數(shù)據(jù)挖掘主要分為關(guān)聯(lián)規(guī)則挖掘、聚類、分類、時序模式發(fā)現(xiàn)等幾大分支。而關(guān)聯(lián)規(guī)則挖掘作為其中最為重要的一個分支,在應(yīng)用方面得到了廣泛的發(fā)展。
2、關(guān)聯(lián)規(guī)則挖掘是通過分析數(shù)據(jù)庫,進而發(fā)現(xiàn)數(shù)據(jù)庫中大量項集之間的關(guān)聯(lián)關(guān)系。它最早由Agrawal提出,并在AIS算法基礎(chǔ)上進行了完善而后提出了Apriori算法,Apriori算法是最經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法。它利用逐層搜索的迭代方法,從數(shù)據(jù)庫中挖掘出滿足最小支持度和置信度閾值的關(guān)聯(lián)規(guī)則。Apriori算法分為連接和剪枝兩步。但Apriori算法有其固有缺陷:1、各階段產(chǎn)生的G過大,尤其是當k:2時,候選集數(shù)目驚人。2、每生成一個候選集,都會掃描一遍數(shù)據(jù)庫,造成了巨大的I/O開銷,也增加了算法的時間復雜度。本文針對上述問題提出了一種改進的關(guān)聯(lián)規(guī)則挖掘算法,主要思路為:1、采用矩陣這種數(shù)據(jù)結(jié)構(gòu),掃描一
3、遍數(shù)據(jù)庫,將原始事務(wù)數(shù)據(jù)庫轉(zhuǎn)化為0—1矩陣,不僅節(jié)省了存儲空間,而且在進行數(shù)據(jù)挖掘操作時可拋棄原T太原理工大學碩士研究生學位論文始數(shù)據(jù)庫,只利用矩陣,減少了掃描數(shù)據(jù)庫造成的I/0開銷。2、利用原始矩陣和其轉(zhuǎn)置矩陣,進行矩陣運算,得到2一候選集集合,矩陣運算簡單,加快了項集的查找速度。3、根據(jù)結(jié)果上三角矩陣分析數(shù)據(jù),減少了候選數(shù)據(jù)項的數(shù)量,更快的確定頻繁項集,快速得到所需的關(guān)聯(lián)規(guī)則。通過實驗對比分析,該算法具有較低的時間復雜度和較高的運行效率。正因如此,加上矩陣占有極小的內(nèi)存空間,將該算法應(yīng)用到超市零售業(yè)的大數(shù)據(jù)集關(guān)聯(lián)規(guī)則挖掘中,找出銷售物品間的關(guān)聯(lián)規(guī)則,為超市在今后制定銷售策略提供了科學決策依
4、據(jù),因此該算法具有極大的實用性和適用性。關(guān)鍵詞:數(shù)據(jù)挖掘,關(guān)聯(lián)規(guī)則挖掘,Apriori算法,矩陣,矩陣運算THERESEARCHOFASSOCIATIONRULESMININGALGOR』THMABSTRACTAsthetimedevelopsrapidlyandthetechnologyofdatabasegetsmaturegradually,thequantityofdataproducedhasballoonedexpoentially,SOweareeagertogetsomerulesorsomethingvaluablefromthemajorityofdata,whichare
5、alsonamedasinformation,toguideUStodeveloppracticallyinthefuture.Datamining,whichcouldmeettherequirement,isanoveltechnologyofinformationanalysis,whichcouldextractthehidden,implicit,valid,novelandinterestingspatialornon—spatialpattemsorrulesfromlarge—amount,incomplete,noisy,fuzzy,random,andpracticalda
6、tabyusingcomputer.Atpresent,dataminingmainlyinvolvesassociationrules,clustering,classification,time—seriespatternsdiscoveryandSOon.Associationrulesmining,asoneofthemostimportantbranchesofdatamining,hasawideapplicationinvariousaspects.Itcandiscoverrelationshipbetweenitemsetsaccordingtoanalyzingdataba
7、se.AssociationrulesminingwasproposedoriginallybyAgrawal,andputforwardApriorialgorithmafterimprovingtheAISalgorithm.Apriorialgorithmisthemostclassicalassociationrulesminingalgorithm.Itusestheiterationm