資源描述:
《關(guān)聯(lián)規(guī)則研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。
1、關(guān)聯(lián)規(guī)則研究摘要:對(duì)關(guān)聯(lián)規(guī)則挖掘技術(shù)進(jìn)行瞭研究,描述瞭關(guān)聯(lián)規(guī)則的基本概念,介紹瞭關(guān)聯(lián)規(guī)則的分類;闡述瞭挖掘關(guān)聯(lián)規(guī)則的步驟,並展望瞭關(guān)聯(lián)規(guī)則進(jìn)一步的研究方向。關(guān)聯(lián)規(guī)則挖掘作為數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要研究?jī)?nèi)容,它揭示瞭項(xiàng)集之間有趣的相關(guān)關(guān)系,可廣泛應(yīng)用於購(gòu)物籃分析、數(shù)據(jù)分析、分類、網(wǎng)絡(luò)個(gè)性化服務(wù)、企業(yè)電子商務(wù)中客戶數(shù)據(jù)挖掘等廣泛領(lǐng)域關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;關(guān)聯(lián)規(guī)則挖掘中圖分類號(hào):TP311.13文獻(xiàn)標(biāo)志碼:A文章編號(hào):1673-291X(2010)11-0198-02數(shù)據(jù)挖掘是一個(gè)飛速發(fā)展的領(lǐng)域,不斷有新的技術(shù)和系統(tǒng)出現(xiàn)。而如何將這一
2、技術(shù)應(yīng)用於實(shí)際工作中,還需要作更深一步的開(kāi)發(fā)與研究,作為一個(gè)年輕的和很有希望的領(lǐng)域,數(shù)據(jù)挖掘依然面臨著很大挑戰(zhàn)和許多等待解決的問(wèn)題在數(shù)據(jù)挖掘的知識(shí)模式中,關(guān)聯(lián)規(guī)則模式是比較重要的—種,也是最活躍的一個(gè)分支—、關(guān)聯(lián)規(guī)則的基本概念關(guān)聯(lián)規(guī)則表示數(shù)據(jù)庫(kù)中一組對(duì)象之間某種關(guān)聯(lián)關(guān)系的規(guī)則。例如,關(guān)聯(lián)規(guī)則可以表示為“購(gòu)買(mǎi)瞭項(xiàng)目A和B的顧客中有95舛勺人又買(mǎi)瞭C和D,。從這些規(guī)則可找出顧客購(gòu)買(mǎi)行為模式,可以應(yīng)用於商品貨架設(shè)計(jì)、生產(chǎn)安排、針對(duì)性的市場(chǎng)營(yíng)銷等采用關(guān)聯(lián)模型比較典型的例子是啤酒和尿佈〃的故事。關(guān)聯(lián)規(guī)則問(wèn)題由Agrav^l等人於1993年首先
3、提出,隨即引起瞭廣泛的關(guān)註。許多研究者(包括R他raval本人)對(duì)關(guān)聯(lián)規(guī)則挖掘問(wèn)題進(jìn)行深入的研究,對(duì)最初的關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行瞭改進(jìn)和擴(kuò)展。同時(shí),關(guān)聯(lián)規(guī)則的挖掘被應(yīng)用到許多其它領(lǐng)域的數(shù)據(jù)庫(kù),取得瞭良好的挖掘效果為瞭準(zhǔn)確地描述關(guān)聯(lián)規(guī)則挖掘問(wèn)題,便於問(wèn)題的討論,給出關(guān)聯(lián)規(guī)則挖掘問(wèn)題的正式定義[1]:定義1關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)集記為UD為事務(wù)數(shù)據(jù)庫(kù)),D={t1,t2,...,tk,...,tn},tk={i1,i2,...,ij...,...ip}(k=1,2,…,n)為一條事務(wù);tk中的元素ij(j=1,2,…,P)稱為項(xiàng)目(iten
4、)定義2設(shè)n}是事務(wù)數(shù)據(jù)庫(kù)D中全體項(xiàng)目組成的集合,I的任何子集X稱為D中的項(xiàng)目集(itenset),
5、X
6、=k稱集合X為k項(xiàng)目集。設(shè)tk和X分別為D中的事務(wù)和項(xiàng)目集,如果X?欝tk,稱事務(wù)tk包含項(xiàng)目集X事務(wù)和項(xiàng)目集雖然都是項(xiàng)目的集合,但兩者有不同的含義。事務(wù)是數(shù)據(jù)庫(kù)D的組成元素(類似於關(guān)系數(shù)據(jù)庫(kù)中的記錄或元組),而項(xiàng)目?jī)H僅是為挖掘關(guān)聯(lián)規(guī)則而規(guī)定的項(xiàng)目組合(類似於關(guān)系數(shù)據(jù)庫(kù)中的字段)。事務(wù)與項(xiàng)目集的包含關(guān)系表明對(duì)該事務(wù)來(lái)說(shuō),此項(xiàng)目集中的各個(gè)項(xiàng)目是相互關(guān)聯(lián)的定義3數(shù)據(jù)集D中包含項(xiàng)目集X的事務(wù)數(shù)稱為項(xiàng)目集X的支持?jǐn)?shù),記為oxo項(xiàng)目集X的
7、支持率,記作:support(X),即概率P(X)O[1]support(X)=■x100%1)其中,
8、D
9、是數(shù)據(jù)集D的事務(wù)數(shù)。若support(X)不小於用戶指定的最小支持率(記作:niinsupport),則稱X為頻繁項(xiàng)目集(或大項(xiàng)目集),否則稱X為非頻繁項(xiàng)目集(或小項(xiàng)目集)定義4若X、Y為項(xiàng)目集,且XGY二?準(zhǔn),蘊(yùn)涵式X?iBY稱為關(guān)聯(lián)規(guī)則,X、Y分別稱為關(guān)聯(lián)規(guī)則X?圮Y的前提和結(jié)論。項(xiàng)目集(X?圮Y)的支持率稱為關(guān)聯(lián)規(guī)則X?圮Y的支持率,是D中事務(wù)包含(XUY)的百分比,即概率P(XUY),記作:supposupport(X
10、?圮Y)=support(XUY)=P(XUY)(2)關(guān)聯(lián)規(guī)則X?iEY的置信度是D中事務(wù)包含X的同時(shí)也包含Y的百分比,即條件概率P(Y
11、X),記作:confidence(X?iEY)confidence(X?iEY)=■x1OO%=P(Y
12、X)(3)支持度和置信度是描述關(guān)聯(lián)規(guī)則的兩個(gè)重要概念,前者用於衡量關(guān)聯(lián)規(guī)則在整個(gè)數(shù)據(jù)集中的統(tǒng)計(jì)重要性,後者用於衡量關(guān)聯(lián)規(guī)則的可信程度。一般來(lái)說(shuō),隻有支持度和置信度均較高的關(guān)聯(lián)規(guī)則才可能是用戶感興趣的、有用的關(guān)聯(lián)規(guī)則通常,用戶根據(jù)挖掘需要指定最小支持度(記為niinsupport)和最小置信度(記
13、為mnconfidence)o前者描述瞭關(guān)聯(lián)規(guī)則的最低重要程度,後者規(guī)定瞭關(guān)聯(lián)規(guī)則必須滿足的最低可靠性二、關(guān)聯(lián)規(guī)則的分類我們將關(guān)聯(lián)規(guī)則按不同的情況進(jìn)行分類:1.基於規(guī)則中處理的變量的類別,關(guān)聯(lián)規(guī)則可以分為佈爾型和數(shù)值型。佈爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的,它顯示瞭這些變量之間的關(guān)系;而數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來(lái),對(duì)數(shù)值型字段進(jìn)行處理,將其進(jìn)行動(dòng)態(tài)的分割,或者直接對(duì)原始的數(shù)據(jù)進(jìn)行處理2.基於規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。在單層的關(guān)聯(lián)規(guī)則中,所有的變量都沒(méi)有考慮到現(xiàn)實(shí)的數(shù)據(jù)是具
14、有多個(gè)不同的層次的;而在多層的關(guān)聯(lián)規(guī)則中,對(duì)數(shù)據(jù)的多層性已經(jīng)進(jìn)行瞭充分的考慮3.基於規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的在實(shí)際中,用戶往往並不是對(duì)所有的關(guān)聯(lián)規(guī)則都感興趣,而隻想知道關(guān)於某方面的關(guān)聯(lián)規(guī)則,如那些至少包