數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則

數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則

ID:12543735

大?。?0.50 KB

頁(yè)數(shù):3頁(yè)

時(shí)間:2018-07-17

數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則_第1頁(yè)
數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則_第2頁(yè)
數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則_第3頁(yè)
資源描述:

《數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)

1、數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則信管0901程曉飛2009306202008  1.什么是關(guān)聯(lián)規(guī)則  在描述有關(guān)關(guān)聯(lián)規(guī)則的一些細(xì)節(jié)之前,我們先來(lái)看一個(gè)有趣的故事:"尿布與啤酒"的故事。  在一家超市里,有一個(gè)有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售。但是這個(gè)奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。這不是一個(gè)笑話,而是發(fā)生在美國(guó)沃爾瑪連鎖店超市的真實(shí)案例,并一直為商家所津津樂(lè)道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),為了能夠準(zhǔn)確了解顧客在其門店的購(gòu)買習(xí)慣,沃爾瑪對(duì)其顧客的購(gòu)物行為進(jìn)行購(gòu)物籃分析,想知道顧客經(jīng)常一起購(gòu)買的商品有哪些。沃爾瑪數(shù)據(jù)倉(cāng)庫(kù)

2、里集中了其各門店的詳細(xì)原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘。一個(gè)意外的發(fā)現(xiàn)是:"跟尿布一起購(gòu)買最多的商品竟是啤酒!經(jīng)過(guò)大量實(shí)際調(diào)查和分析,揭示了一個(gè)隱藏在"尿布與啤酒"背后的美國(guó)人的一種行為模式:在美國(guó),一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時(shí)也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國(guó)的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們?cè)谫I尿布后又隨手帶回了他們喜歡的啤酒?! “闯R?guī)思維,尿布與啤酒風(fēng)馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對(duì)

3、大量交易數(shù)據(jù)進(jìn)行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價(jià)值的規(guī)律的?! ?shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。Agrawal等于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫(kù)中項(xiàng)集間的關(guān)聯(lián)規(guī)則問(wèn)題,以后諸多的研究人員對(duì)關(guān)聯(lián)規(guī)則的挖掘問(wèn)題進(jìn)行了

4、大量的研究。他們的工作包括對(duì)原有的算法進(jìn)行優(yōu)化,如引入隨機(jī)采樣、并行的思想等,以提高算法挖掘規(guī)則的效率;對(duì)關(guān)聯(lián)規(guī)則的應(yīng)用進(jìn)行推廣。關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一個(gè)重要的課題,最近幾年已被業(yè)界所廣泛研究?! ?.關(guān)聯(lián)規(guī)則挖掘過(guò)程、分類及其相關(guān)算法  2.1關(guān)聯(lián)規(guī)則挖掘的過(guò)程  關(guān)聯(lián)規(guī)則挖掘過(guò)程主要包含兩個(gè)階段:第一階段必須先從資料集合中找出所有的高頻項(xiàng)目組(FrequentItemsets),第二階段再由這些高頻項(xiàng)目組中產(chǎn)生關(guān)聯(lián)規(guī)則(AssociationRules)。  關(guān)聯(lián)規(guī)則挖掘的第一階段必須從原始資料集合中,找出所有高頻項(xiàng)目

5、組(LargeItemsets)。高頻的意思是指某一項(xiàng)目組出現(xiàn)的頻率相對(duì)于所有記錄而言,必須達(dá)到某一水平。一項(xiàng)目組出現(xiàn)的頻率稱為支持度(Support),以一個(gè)包含A與B兩個(gè)項(xiàng)目的2-itemset為例,我們可以經(jīng)由公式(1)求得包含{A,B}項(xiàng)目組的支持度,若支持度大于等于所設(shè)定的最小支持度(MinimumSupport)門檻值時(shí),則{A,B}稱為高頻項(xiàng)目組。一個(gè)滿足最小支持度的k-itemset,則稱為高頻k-項(xiàng)目組(Frequentk-itemset),一般表示為L(zhǎng)argek或Frequentk。算法并從Largek的項(xiàng)目

6、組中再產(chǎn)生Largek+1,直到無(wú)法再找到更長(zhǎng)的高頻項(xiàng)目組為止。  關(guān)聯(lián)規(guī)則挖掘的第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則(AssociationRules)。從高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則,是利用前一步驟的高頻k-項(xiàng)目組來(lái)產(chǎn)生規(guī)則,在最小信賴度(MinimumConfidence)的條件門檻下,若一規(guī)則所求得的信賴度滿足最小信賴度,稱此規(guī)則為關(guān)聯(lián)規(guī)則。例如:經(jīng)由高頻k-項(xiàng)目組{A,B}所產(chǎn)生的規(guī)則AB,其信賴度可經(jīng)由公式(2)求得,若信賴度大于等于最小信賴度,則稱AB為關(guān)聯(lián)規(guī)則?! 【臀譅栺R案例而言,使用關(guān)聯(lián)規(guī)則挖掘技術(shù),對(duì)交易資料庫(kù)中的紀(jì)錄進(jìn)行資

7、料挖掘,首先必須要設(shè)定最小支持度與最小信賴度兩個(gè)門檻值,在此假設(shè)最小支持度min_support=5%且最小信賴度min_confidence=70%。因此符合此該超市需求的關(guān)聯(lián)規(guī)則將必須同時(shí)滿足以上兩個(gè)條件。若經(jīng)過(guò)挖掘過(guò)程所找到的關(guān)聯(lián)規(guī)則「尿布,啤酒」,滿足下列條件,將可接受「尿布,啤酒」的關(guān)聯(lián)規(guī)則。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%于此應(yīng)用范例中的意義為:在所有的交易紀(jì)錄資料中,至少有5%的交易呈現(xiàn)尿布與啤酒這兩項(xiàng)商品被

8、同時(shí)購(gòu)買的交易行為。Confidence(尿布,啤酒)>=70%于此應(yīng)用范例中的意義為:在所有包含尿布的交易紀(jì)錄資料中,至少有70%的交易會(huì)同時(shí)購(gòu)買啤酒。因此,今后若有某消費(fèi)者出現(xiàn)購(gòu)買尿布的行為,超市將可推薦該消費(fèi)者同時(shí)購(gòu)買啤酒。這個(gè)商品推薦的行為則是根據(jù)「尿布

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。