數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則挖掘的應(yīng)用研究

數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則挖掘的應(yīng)用研究

ID:34127462

大?。?54.70 KB

頁(yè)數(shù):5頁(yè)

時(shí)間:2019-03-03

數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則挖掘的應(yīng)用研究_第1頁(yè)
數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則挖掘的應(yīng)用研究_第2頁(yè)
數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則挖掘的應(yīng)用研究_第3頁(yè)
數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則挖掘的應(yīng)用研究_第4頁(yè)
數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則挖掘的應(yīng)用研究_第5頁(yè)
資源描述:

《數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則挖掘的應(yīng)用研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)

1、http://www.paper.edu.cn數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則挖掘的應(yīng)用研究吳海玲,王志堅(jiān),許峰河海大學(xué)計(jì)算機(jī)及信息工程學(xué)院,江蘇南京(210098)摘要:本文首先介紹關(guān)聯(lián)規(guī)則的基本原理,并簡(jiǎn)單概括其挖掘任務(wù),然后說(shuō)明關(guān)聯(lián)規(guī)則的經(jīng)典挖掘算法Apriori算法,通過(guò)一個(gè)實(shí)例分析進(jìn)一步明確關(guān)聯(lián)規(guī)則在CRM中的應(yīng)用,最后展望了關(guān)聯(lián)規(guī)則挖掘的研究方向。關(guān)鍵詞:數(shù)據(jù)挖掘,關(guān)聯(lián)規(guī)則,Apriori算法,CRM引言關(guān)聯(lián)規(guī)則是表示數(shù)據(jù)庫(kù)中一組對(duì)象之間的某種關(guān)聯(lián)關(guān)系的規(guī)則,關(guān)聯(lián)規(guī)則挖掘的主要對(duì)象是交易(Transaction)

2、數(shù)據(jù)庫(kù)。這種數(shù)據(jù)庫(kù)的一個(gè)主要應(yīng)用是零售業(yè),比如超級(jí)市場(chǎng)的銷(xiāo)售管理。條形碼技術(shù)的發(fā)展使得數(shù)據(jù)的收集變得更容易、更完整,從而可以存儲(chǔ)大量的交易資料。關(guān)聯(lián)規(guī)則就是辨別這些交易項(xiàng)目之間是否存在某種關(guān)系。例如:關(guān)聯(lián)規(guī)則可以表示“購(gòu)買(mǎi)了商品A和B的顧客中有80%的人又購(gòu)買(mǎi)了商品C和D”。這種關(guān)聯(lián)規(guī)則提供的信息[1]可以用作商品目錄設(shè)計(jì)、商場(chǎng)貨架的布置、生產(chǎn)安排、具有針對(duì)性的市場(chǎng)營(yíng)銷(xiāo)等。1關(guān)聯(lián)規(guī)則的基本原理設(shè)I={i1,i2,……,im}是項(xiàng)的集合,設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫(kù)事務(wù)的集合,其中每個(gè)事務(wù)T是項(xiàng)的集合,使得T?I。

3、每一個(gè)事務(wù)有一個(gè)標(biāo)識(shí)符,稱(chēng)作TID。設(shè)X是一個(gè)項(xiàng)集,事務(wù)T包含X當(dāng)且僅當(dāng)X?T。關(guān)聯(lián)規(guī)則是形如X?Y的蘊(yùn)涵式,其中X?I,Y?I,并且X∩Y=?。規(guī)則X?Y在事務(wù)集D中成立,具有支持度s,其中s是D中事務(wù)包含X∪Y(即X和Y二者)的百分比,它是概率P(X∪Y)。規(guī)則X?Y在事務(wù)集中具有可信度c,如果D中包含X的事務(wù)同時(shí)也包含Y的百分比c。這是條件概率P(XY∣)。即是support(X?Y)=P(XY∪)confidence(X?Y)=P(XY∣)[1]同時(shí)滿(mǎn)足最小支持度(minsup)和最小可信度閾值(min

4、conf)的規(guī)則稱(chēng)作強(qiáng)規(guī)則。項(xiàng)的集合稱(chēng)為項(xiàng)集(itemset)。包含k個(gè)項(xiàng)的項(xiàng)集成為k-項(xiàng)集,例如集合{computer,software}是一個(gè)2—項(xiàng)集。項(xiàng)集的出現(xiàn)頻率是包含項(xiàng)集的事務(wù)數(shù),簡(jiǎn)稱(chēng)為項(xiàng)集的頻率。項(xiàng)集滿(mǎn)足最小支持度minsup,如果項(xiàng)集的出現(xiàn)頻率大于或者等于minsup與D中事務(wù)總數(shù)的乘[2]積。如果項(xiàng)集滿(mǎn)足最小支持度,則稱(chēng)它為頻繁項(xiàng)集(frequentitemset)。2關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)任務(wù)關(guān)聯(lián)規(guī)則挖掘的問(wèn)題就是要找出這樣的一些規(guī)則,它們的支持度或可信度分別大于指[3]定的最小支持度minsup和最

5、小可信度minconf。因此,該問(wèn)題可以分解成如下兩個(gè)子問(wèn)題:1.產(chǎn)生所有支持度大于或等于指定最小支持度的項(xiàng)集,這些項(xiàng)目集稱(chēng)為頻繁項(xiàng)目集(frequentitemsets),而其他的項(xiàng)目集則成為非頻繁項(xiàng)目集(non-frequentitemsets)2.由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。根據(jù)定義,這些規(guī)則必須滿(mǎn)足最小支持度和最小可信度。關(guān)聯(lián)規(guī)則挖掘的問(wèn)題的主要特征是數(shù)據(jù)量巨大,因此算法的效率很關(guān)鍵。目前研究的重點(diǎn)在第一步,即發(fā)現(xiàn)頻繁項(xiàng)目集,因此第二步相對(duì)來(lái)說(shuō)是很容易的。-1-http://www.paper.edu.c

6、n3Apriori挖掘算法關(guān)聯(lián)規(guī)則是反應(yīng)兩項(xiàng)或多項(xiàng)屬性之間存在的相關(guān)性,其目的是為了從一些項(xiàng)的屬性值來(lái)預(yù)測(cè)其他屬性值,同時(shí)可以應(yīng)用推廣所反映一個(gè)事件和其他事件之間依賴(lài)或者關(guān)聯(lián)的知識(shí)。最為著名的關(guān)聯(lián)規(guī)則挖掘方法是由美國(guó)學(xué)者R.Agrawal提出的Apriori算法,主要是用于從大規(guī)模商業(yè)數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則。Apriori算法利用了項(xiàng)目集如下性質(zhì)對(duì)數(shù)據(jù)庫(kù)進(jìn)行多趟掃描:任意頻繁項(xiàng)集的子集都是頻繁項(xiàng)集;任意非頻繁項(xiàng)集的超集都是非頻繁項(xiàng)集。第一趟掃描得到頻繁-1項(xiàng)集的集合L1,第k趟掃描前先利用上趟掃描的結(jié)果項(xiàng)目集Lk-

7、1產(chǎn)生k-項(xiàng)集的集合Ck,然后再通過(guò)掃描數(shù)據(jù)庫(kù)確定對(duì)Ck中每一候選k-項(xiàng)集的支持?jǐn)?shù),最后在該趟結(jié)束時(shí)求出頻繁k項(xiàng)集合Lk,算法在Ck或Lk為空時(shí)終止。下面是Apriori算法的偽代碼:算法:Apriori算法,使用逐步迭代法生成頻繁項(xiàng)集輸入:事務(wù)數(shù)據(jù)庫(kù)D;最小支持度閾值minsup輸出:D中的頻繁項(xiàng)集LL1={large1-itemsets};for(k=2;Lk-1≠?;k++){Ck=apriori_gen(Lk-1;minsup);//產(chǎn)生候選項(xiàng)foralltransactionstD∈{Ct=subse

8、t(Ck,t);//找出包含Ck的事務(wù)子集forallcandidatesc∈Ct{c.count++;}Lk={c∈Ck

9、c.count/

10、D

11、≥minsup}}}ReturnAnswerULkk算法:apriori_gen函數(shù):輸入:以Lk-1頻繁(k-1)-項(xiàng)集,minsup:最小支持度作為輸入?yún)?shù)輸出:返回所有k-項(xiàng)集的集合Ckprocedureapriori_gen(Lk-1

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳,版權(quán)歸屬用戶(hù),天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。