資源描述:
《基于布爾矩陣的高價(jià)值度關(guān)聯(lián)規(guī)則挖掘算法.pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、204年第6期s。i。。dT}}j{。。R。。hdoi:10.3969/j.issn.1000—7695.2014.06.038基于布爾矩陣的高價(jià)值度關(guān)聯(lián)規(guī)則挖掘算法葉世綺,孫振,趙站(暨南大學(xué),廣東廣州510632)摘要:傳統(tǒng)的挖掘算法Apriori是依據(jù)統(tǒng)計(jì)學(xué)中的數(shù)據(jù)顯著性挖掘關(guān)聯(lián)規(guī)則,需多次掃描數(shù)據(jù)庫,效率較低,且忽視了數(shù)據(jù)顯著性與價(jià)值性不匹配的問題。針對(duì)“大數(shù)據(jù)”下容易產(chǎn)生數(shù)量繁多但無效的關(guān)聯(lián)規(guī)則,通過采用基于布爾矩陣挖掘關(guān)聯(lián)規(guī)則的算法,只掃描一次數(shù)據(jù)庫,得出布爾矩陣及相應(yīng)的利潤矩陣,隨后根據(jù)“二八法則”設(shè)定
2、對(duì)客戶最具吸引力的“最小價(jià)值度”,最終挖掘出高價(jià)值的關(guān)聯(lián)規(guī)則,從而提高規(guī)則挖掘的效率及價(jià)值。關(guān)鍵詞:關(guān)聯(lián)規(guī)則;布爾矩陣;規(guī)則相關(guān)項(xiàng)布爾矩陣;平均利潤矩陣;最小價(jià)值度中圖分類號(hào):TP301文獻(xiàn)標(biāo)志碼:A文章編號(hào):1000—7695(2014)06—0188—04High——valueDegreeAssociationRulesMiningAlgorithmBasedonBooleanmatrixYEShiqi,SUNZhen,ZHAOZhe(JinanUniversity,Guangzhou510632,China)A
3、bstract:ThetraditionalassociationrulesminingalgorithmAprioriisbasedonthesignificantminingassociationrulesinstatistics.ThealgorithmisIneficientbecauseitneedstorepeatedlyscanthedatabase.Anditalsoneglectstheproblemthatthesignificanceofdatadoesnotmatchthevalue.Oppo
4、sitelyitiseasytoproduceexcessivebutInvalidassociationrules.Thepaperusesthealgorithmbasedonbooleanmatrixtominingassociationrules.Thisalgorithmdrawsthebool—eanmatrixandthecorrespondingprofitmatrixbyscanningthedatabaseonlyonce.Then,itsetsthemostattractiveminimalde
5、greefortheclientbasedontheParetorule.Atlast,itminesthehigh—valuedegreeassociationrulesandimproveseffi—ciencyandvalue.Keywords:associationrules;booleanmatrix;booleanmatrixrelatedwiththeitemsoftherules;averageprofitmatrix;minimaldegree關(guān)聯(lián)規(guī)則挖掘主要用于發(fā)現(xiàn)數(shù)據(jù)庫中客戶感興到對(duì)客戶真正具有
6、高價(jià)值的關(guān)聯(lián)規(guī)則,在已有的研趣的項(xiàng)集之問的相互關(guān)聯(lián),是對(duì)一個(gè)對(duì)象和其它對(duì)究和實(shí)踐的基礎(chǔ)上,本文通過引入有關(guān)布爾矩陣的象的相互依存和關(guān)聯(lián)關(guān)系的一種表示-41。作為數(shù)概念,構(gòu)建布爾矩陣及相應(yīng)的利潤矩陣,最終得到據(jù)挖掘中的一個(gè)重要研究領(lǐng)域,關(guān)聯(lián)規(guī)則得到了學(xué)具有高價(jià)值的關(guān)聯(lián)規(guī)則。術(shù)界極大的關(guān)注,并在商業(yè)、企業(yè)、過程控制、政1相關(guān)概念的描述府部門及科學(xué)研究等領(lǐng)域都得到了廣泛的應(yīng)用J。關(guān)聯(lián)規(guī)則的典型算法Apriori是Agrawal等人令,={i,i,?,i}為項(xiàng)目集合,由11,個(gè)在1993年提出來的,該模型需要不斷地掃描事務(wù)數(shù)
7、互不相同的項(xiàng)目構(gòu)成;D為數(shù)據(jù)庫,由一組事務(wù)組據(jù)庫,成本較高J,并假定數(shù)據(jù)庫中的項(xiàng)目具有相成;事務(wù)T=(,)是一個(gè)元組,其中表示同的重要性。在實(shí)際的應(yīng)用中,關(guān)聯(lián)規(guī)則的挖掘事務(wù)標(biāo)識(shí)符,,,。主要通過支持度和置信度兩個(gè)指標(biāo)來評(píng)價(jià)一個(gè)規(guī)則定義l:令,={,i:,?,i}為項(xiàng)目集合,是否有效J。通過這種方法挖掘關(guān)聯(lián)規(guī)則主要存在事務(wù)的項(xiàng)集為,={,i:,?,i},且其中涉及著以下問題:首先,支持度和置信度的設(shè)定往往過到關(guān)聯(lián)規(guī)則的k一項(xiàng)項(xiàng)集為Ix={i,i,?,i},于主觀,容易造成挖掘效果不夠理想;其次,R且k≤≤n,,,P={
8、,p:,?,}表示Agrawal等人。。提出的模型假定數(shù)據(jù)庫中的項(xiàng)目具對(duì)應(yīng)于k一項(xiàng)項(xiàng)集,中k一項(xiàng)單位利潤集,Q=有相同的重要性,容易造成對(duì)價(jià)值原則的忽視;最{g,g,?,}為整個(gè)事務(wù)數(shù)據(jù)庫D中對(duì)應(yīng)k一后,需要不斷地掃描事務(wù)數(shù)據(jù)庫產(chǎn)生候選集的效率項(xiàng)項(xiàng)集中k一項(xiàng)銷售數(shù)量集,Vx={VV?,較低。為了更加有效地挖掘高價(jià)值度關(guān)聯(lián)規(guī)則,找收稿日期:201