資源描述:
《基于決策屬性的關(guān)聯(lián)規(guī)則挖掘.pdf》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、第28卷第1期大連交通大學(xué)學(xué)報Voi.28No.12007年3月JOURNALOFDALIANJIAOTONGUNIVERSITYMar.2007文章編號:1673-9590(2007)01-0062-04基于決策屬性的關(guān)聯(lián)規(guī)則挖掘伊衛(wèi)國,趙波(大連交通大學(xué)軟件學(xué)院,遼寧大連116052)*摘!要:針對具有決策屬性的數(shù)據(jù)庫模型,提出了高效挖掘關(guān)聯(lián)規(guī)則算法,即矩陣劃分算法:根據(jù)決策屬性將掃描后的數(shù)據(jù)庫劃分成兩個包含不同決策屬性的矩陣,分別采用向量法挖掘頻繁項目集.關(guān)聯(lián)規(guī)則的生成可充分利用“與”運算的優(yōu)點,查找規(guī)則前件或后件
2、的支持度.所提出的算法減少了候選二項頻集的生成,以及“與”運算的大小,與apriori算法及傳統(tǒng)的向量法挖掘關(guān)聯(lián)規(guī)則相比,效率明顯提高.關(guān)鍵詞:數(shù)據(jù)挖掘;向量法;關(guān)聯(lián)規(guī)則;矩陣劃分中圖文分類號:TP311.13文獻(xiàn)標(biāo)識碼:AMiningBasedonAssociationRulesofDecisionPropertyYIWei-guo,ZHAOBo(SchooiofSoftware,DaiianJiaotongUniversity,Daiian116052,China)Abstract:Thispaperputsforw
3、ardefficientaigorithmaccordingtothedatabasemodeithathasdecisionpropertytomineassociationruies.Aigorithmofmatrixpartition:thedatabaseisdividedintotwomatrixesthatcontaindifferentproperty,andusevectortominefreguentitemsets.Pro-ducingofruiescanmakeuseoftheadvantageof
4、“and”operationtofindsupportoftheante-cedentortheconseguent.Thisaigorithmreducedtheproductionofcandidatetwo-itemsetsandamountofoperation.Comparetoaprioriandothertraditionaiaigorithm,theadvantageofaigo-rithmefficiencyrisesobviousiy.Keywords:datamining;vector;associ
5、ationruie;matrixpartition[1]關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)數(shù)據(jù)庫中不同項之間的聯(lián)系.其中,Apriori算法是最經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法.[2]它是由R.Agrawai等人首先提出的.隨著數(shù)據(jù)庫的不斷增大,如何提高關(guān)聯(lián)規(guī)則挖掘算法的效率一直是專家、學(xué)者的研究方向之一.[3-6][7-8]目前,關(guān)聯(lián)規(guī)則的研究主要包括提高算法的效率,對挖掘出的規(guī)則的有趣性進(jìn)行分析,及關(guān)[9-10]聯(lián)規(guī)則的維護(hù)等.其算法的分析所采用的數(shù)據(jù)庫模型,絕大多數(shù)是交易數(shù)據(jù)庫.針對其他數(shù)據(jù)庫模型而提出的高效算法相對較少.本文針對具有決策屬性的
6、數(shù)據(jù)庫模型,提出了一種高效的關(guān)聯(lián)規(guī)則挖掘算法,該算法結(jié)合向量法挖掘關(guān)聯(lián)規(guī)則的優(yōu)點,其效率明顯提高.1問題描述1"1向量法挖掘關(guān)聯(lián)規(guī)則的基本思想本文結(jié)合文獻(xiàn)[1]的向量法挖掘關(guān)聯(lián)規(guī)則的思想來挖掘具有決策屬性的數(shù)據(jù)庫.首先,給出文獻(xiàn)*收稿日期:2006-03-05作者簡介:伊衛(wèi)國(1979-),男,助教,碩士.第1期伊衛(wèi)國等:基于決策屬性的關(guān)聯(lián)規(guī)則挖掘63[1]的兩個定義和引理:(1)元向量:由數(shù)據(jù)庫直接掃描得到的項目向量權(quán)稱元向量.(2)導(dǎo)出向量:由若干元向量經(jīng)過簡單運算后得到新的向量權(quán)稱導(dǎo)出向量.引理!廣義向量運算:等維
7、數(shù)向量“與”運算等于維中各元素分別進(jìn)行“與”運算.用“八”表示“與”運算.則該引理用數(shù)學(xué)語言表述為:X=[a1,a2,a3,?,an]Y=[b1,b2,b3,?bn]則:X八Y=[a1八b1,a2八b2,a3八b3,?an八bn]文獻(xiàn)[1]的向量法挖掘關(guān)聯(lián)規(guī)則的基本思想:將包含m個事務(wù),n個項目的數(shù)據(jù)庫構(gòu)造成n個長度為m的向量.用xi表示第i個項目的元向量,xij表示第i個項目在第j次事務(wù)中的出現(xiàn)與否,如果出現(xiàn)xij=1,否則xij=0(即xijE{0,1},i<n,j<m).項目集的長度是指項目集中包含項目的個數(shù).構(gòu)造
8、一個轉(zhuǎn)T置向量t=[1,1,1,1?1]m,利用矩陣乘法xi*t=w計算xi中1的個數(shù),即第i個項目在全部事務(wù)中出現(xiàn)的總次數(shù)w.若w