資源描述:
《數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、關(guān)聯(lián)規(guī)則挖掘在商業(yè)銷售中的應(yīng)用戚蕓(班級(jí):數(shù)科院08(6)班學(xué)號(hào):08213118)[摘要]數(shù)據(jù)挖掘是近些年企業(yè)界相當(dāng)熱門的話題,它利用統(tǒng)計(jì)與人工智能的算法,從龐大的企業(yè)歷史資料中,找出隱藏的規(guī)律并簡(jiǎn)歷準(zhǔn)確的模型,用以預(yù)測(cè)未來。其中關(guān)聯(lián)規(guī)則的挖掘是數(shù)據(jù)挖掘的一個(gè)重要問題。[關(guān)鍵字]關(guān)聯(lián)規(guī)則支持度置信度增益一、關(guān)聯(lián)規(guī)則的概述關(guān)聯(lián)規(guī)則一般用以發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品(項(xiàng))之間的聯(lián)系,用這些規(guī)則找出顧客的購買行為模式,比如購買了某一種商品對(duì)購買其他商品的影響,這種規(guī)則可以應(yīng)用于超市商品貨架設(shè)計(jì)、貨物擺放以
2、及根據(jù)購買模式對(duì)用戶進(jìn)行分類等。進(jìn)而引伸至尋找一個(gè)變量間不同選擇之間的關(guān)系,或?qū)ふ也煌兞块g的關(guān)系。以交易數(shù)據(jù)為例描述關(guān)聯(lián)規(guī)則:給定一個(gè)交易集,該交易集包含一系列商品,則一條關(guān)聯(lián)規(guī)則可以表示為:X→Y二、關(guān)聯(lián)規(guī)則的分類(1)按關(guān)聯(lián)規(guī)則中處理變量的類別,可將關(guān)聯(lián)規(guī)則分為布爾型和數(shù)值型布爾型關(guān)聯(lián)規(guī)則中對(duì)應(yīng)變量都是離散變量或類別變量,它顯示的是離散型變量間的關(guān)系,比如“買啤酒→買嬰兒尿布”;數(shù)值型關(guān)聯(lián)規(guī)則處理則可以與多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則相結(jié)合,處理數(shù)值型變量,如“月收入5000元→每月交通費(fèi)約800元”
3、。(2)按關(guān)聯(lián)規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則單層關(guān)聯(lián)規(guī)則中,所有變量都沒有考慮到現(xiàn)實(shí)的數(shù)據(jù)具有多個(gè)不同的層次;而多層關(guān)聯(lián)規(guī)則中,對(duì)數(shù)據(jù)的多層性已經(jīng)進(jìn)行了充分的考慮。比如“買夾克→買慢跑鞋”是一個(gè)細(xì)節(jié)數(shù)據(jù)上的單層關(guān)聯(lián)規(guī)則,而“買外套→慢跑鞋”是一個(gè)較高層次和細(xì)節(jié)層次間的多層關(guān)聯(lián)規(guī)則。(3)按關(guān)聯(lián)規(guī)則中涉及到的數(shù)據(jù)維數(shù)可以分為單維關(guān)聯(lián)規(guī)則和多維關(guān)聯(lián)規(guī)則單維關(guān)聯(lián)規(guī)則只涉及數(shù)據(jù)的一個(gè)維度(或一個(gè)變量),如用戶購買的物品;而多維關(guān)聯(lián)規(guī)則則要處理多維數(shù)據(jù),涉及多個(gè)變量,也就是說,單維關(guān)
4、聯(lián)規(guī)則處理單一屬性中的關(guān)系,而多維關(guān)聯(lián)規(guī)則則處理多個(gè)屬性間的某些關(guān)系。比如“買啤酒→買嬰兒尿布”只涉及用戶購買的商品,屬于單維關(guān)聯(lián)規(guī)則,而“喜歡野外活動(dòng)→購買慢跑鞋”涉及到兩個(gè)變量的信息,屬于二維關(guān)聯(lián)規(guī)則。三、關(guān)聯(lián)規(guī)則的作用關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘中作用比較廣泛的知識(shí)之一,具體而言,關(guān)聯(lián)規(guī)則的作用可以表現(xiàn)在以下幾個(gè)方面:(1)交叉銷售,基于消費(fèi)者購買模式,主動(dòng)進(jìn)行交叉銷售;(2)郵購目錄的設(shè)計(jì),將經(jīng)常會(huì)一起購買的東西置于郵購目錄較近的位置,促進(jìn)銷售。(3)商品擺放,基于商店不同的經(jīng)營(yíng)理念,如果將會(huì)經(jīng)常一起
5、購買的東西較近擺放,客戶會(huì)比較方便購買,如果有意放在購物通道的兩端,顧客尋找的過程中可以增加其他物品銷售的可能性;(4)流失客戶分析,可以分析是否是某些關(guān)鍵商品的缺失等;(5)基于購買模式進(jìn)行客戶區(qū)隔。一、關(guān)聯(lián)規(guī)則的判斷標(biāo)準(zhǔn)做關(guān)聯(lián)規(guī)則分析之前,首先我們要明白,關(guān)聯(lián)規(guī)則是單向的。超市里我們可能發(fā)現(xiàn)“買啤酒則買嬰兒尿布”的關(guān)聯(lián)性很強(qiáng),但“買嬰兒尿布就買啤酒”的關(guān)聯(lián)性卻很弱。關(guān)聯(lián)規(guī)則左右都可以是多種物品或特性的組合。任何兩個(gè)變量間都可能存在著潛在的關(guān)聯(lián),那么怎樣決定哪些關(guān)聯(lián)確實(shí)具有代表性,真的很有作用,哪
6、些關(guān)聯(lián)只是假象或者毫無用處呢?在考察關(guān)聯(lián)規(guī)則時(shí),需要同時(shí)考慮三條獨(dú)立的標(biāo)準(zhǔn),即支持度(support,也稱廣泛度,普遍度。下文以sup(.)表示括號(hào)內(nèi)關(guān)聯(lián)規(guī)則的支持度)、置信度(confidence,也稱預(yù)測(cè)度。下文以con(.)表示)和增益(lift,下文以lif(.)表示)。表1是一個(gè)假設(shè)的購物籃數(shù)據(jù)庫中的一部分,我們以該數(shù)據(jù)為例說明關(guān)聯(lián)規(guī)則的三個(gè)標(biāo)準(zhǔn)。表1某體育用品店部分銷售數(shù)據(jù)(1)交易項(xiàng)目成交次數(shù)夾克球鞋300滑雪衫,球鞋100夾克,滑雪衫,球鞋100球鞋50慢跑鞋40夾克,慢跑鞋100滑
7、雪衫,慢跑鞋200襯衣10夾克40滑雪衫60合計(jì)10000 假設(shè)該商店運(yùn)動(dòng)鞋即由球鞋和慢跑鞋組成,上衣由襯衣與外套組成,而外套又包括夾克與滑雪衫兩種。將表1整理成交叉表形式如表2:表2某體育用品店部分銷售數(shù)據(jù)(2)運(yùn)動(dòng)鞋Y1單獨(dú)購買合計(jì)球鞋Y11慢跑鞋Y12上衣X襯衣X11010外套X2夾克X2140010040540滑雪衫X2220020060460單獨(dú)購買5040合計(jì)6503401000該表與一般交叉表有所不同,以球鞋一列為例,表中數(shù)據(jù)表示球鞋交易中與夾克一起交易的有400筆,與滑雪衫一起交易的
8、有200筆,單獨(dú)購買球鞋的有50筆,共650筆交易涉及到球鞋。其他各行與列的含義與此相同??偨灰坠P數(shù)1000并不等于邊緣交易筆數(shù)之和,因?yàn)槠渲羞€包括獨(dú)立交易,還有三個(gè)或以上交易項(xiàng)目一起達(dá)成的交易。以上述數(shù)據(jù)為例,可以發(fā)現(xiàn)挖掘出若干條關(guān)聯(lián)規(guī)則,比如:“夾克→球鞋(X21→Y11)”;“外套→慢跑鞋(X2→Y12)”;“運(yùn)動(dòng)鞋→滑雪衫(Y1→X22)”等等。關(guān)聯(lián)規(guī)則的支持度、置信度和增益的含義分別如下。(1)支持度sup(.)表示在購物籃分析中同時(shí)包含關(guān)聯(lián)規(guī)則左右兩邊物品