資源描述:
《基于關(guān)聯(lián)規(guī)則挖掘weka數(shù)據(jù)挖掘應(yīng)用》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、基于關(guān)聯(lián)規(guī)則挖掘weka數(shù)據(jù)挖掘應(yīng)用摘要:關(guān)聯(lián)規(guī)則挖掘作為數(shù)據(jù)挖掘的一個重要方法,在許多數(shù)據(jù)挖掘領(lǐng)域得到應(yīng)用。本文闡述了關(guān)聯(lián)規(guī)則挖掘以及其關(guān)鍵算法,并針對具體的實例,描述了數(shù)據(jù)挖掘工具weka挖掘關(guān)聯(lián)規(guī)則的過程。關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則挖掘;weka中圖分類號:TP311.13文獻標識碼:A文章編號:1007-9599(2012)19-0000-021引言近年來,隨著數(shù)據(jù)庫應(yīng)用和互聯(lián)網(wǎng)的快速發(fā)展和普及,人們漸漸體會到到數(shù)據(jù)海洋的無邊無際。面對如此巨大的數(shù)據(jù)資源,人們迫切需要一種新的技術(shù)和工具將這些數(shù)據(jù)轉(zhuǎn)換成有用的知識與信息資源。數(shù)據(jù)挖掘(DataMining,簡稱DM)作為20
2、世紀末剛興起的數(shù)據(jù)智能分析技術(shù),由于其廣泛的應(yīng)用前景而備受關(guān)注,它可以從數(shù)據(jù)庫,或數(shù)據(jù)倉庫,以及其它各類型的數(shù)據(jù)源中,自動抽取或發(fā)現(xiàn)有用的知識和信息資源。數(shù)據(jù)挖掘是一個多領(lǐng)域交叉的研究和應(yīng)用領(lǐng)域,其中包括了:數(shù)據(jù)庫技術(shù)、人工智能、知識獲取、知識系統(tǒng)、神經(jīng)網(wǎng)絡(luò)、信息檢索等。數(shù)據(jù)挖掘的有關(guān)技術(shù)和方法包括:數(shù)據(jù)預(yù)處理、定性概念歸納、決策樹分類方法、關(guān)聯(lián)規(guī)則挖掘等。關(guān)聯(lián)規(guī)則挖掘作為數(shù)據(jù)挖掘的重要方法,在許多數(shù)據(jù)挖掘應(yīng)用領(lǐng)域得到運用。2關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則挖掘就是從大量的數(shù)據(jù)中挖掘出有價值描述數(shù)據(jù)項之間相互聯(lián)系的有關(guān)知識。例如:從大量的商業(yè)交易記錄中發(fā)現(xiàn)有價值的關(guān)聯(lián)知識就可幫助進行商品目錄
3、的設(shè)計、交叉營銷或幫助進行其它有關(guān)的商業(yè)決策。2.1關(guān)聯(lián)規(guī)則挖掘的基本概念設(shè)1={訂,i2,....,in}為數(shù)據(jù)項集合,D為與任務(wù)相關(guān)的數(shù)據(jù)集合,也就是一個交易數(shù)據(jù)庫;其中的每個交易T是一個數(shù)據(jù)項子集,即TI;每個交易均包含一個識別編號TID,設(shè)A為一個數(shù)據(jù)項集合,當且僅當AT時,稱交易T包含A。一個關(guān)聯(lián)規(guī)則就是具有"A?B”形式的蘊含式;其中有Al,BI且AnB=?o規(guī)則A?B在交易數(shù)據(jù)集D中成立,且具有s支持度和c信任度。這也就是意味著交易數(shù)據(jù)集中有D中有s比例的交易T包含AUB數(shù)據(jù)項;且交易數(shù)據(jù)集D中有s比例的交易T滿足“若包含A就包含B的條件”。具體描述是:suppor
4、t(A?B)=P(AUB),confidence(A?B)=P(A
5、B)o滿足最小支持度閾值和最小信任度閾值的關(guān)聯(lián)規(guī)則就稱為強規(guī)則(strong)。通常為方便起見,都將最小支持度閾值簡寫為min_sup;最小信任度閾值簡寫為min_confo這兩個閾值均在0%到100%之間。一個數(shù)據(jù)項的集合就稱為項集(iternset);一個包含k個數(shù)據(jù)項的項集就稱為k-項集。因此集合(computer,software)就是一個2-項集。一個項集的出現(xiàn)頻度就是整個交易數(shù)據(jù)集D中包含該項集的交易記錄數(shù);這也稱為是該項集的支持度(supportcount)o而若一個項集的出現(xiàn)頻度大于最小支持度閾值
6、乘以交易記錄集D中記錄數(shù),那么就稱該項集滿足最小支持度閾值;而滿足最小支持度閾值所對應(yīng)的交易記錄數(shù)就稱為最小支持頻度(minimumsupportcount)o滿足最小支持閾值的項集就稱為頻繁k項集(frequentitemset)o所有頻繁項集的集合就記為LK[1]。2.2Apriori算法Apriori算法是挖掘產(chǎn)生布爾關(guān)聯(lián)規(guī)則所需頻繁項集的基本算法;它也是一個很有影響的關(guān)聯(lián)規(guī)則挖掘算法。Apriori算法就是根據(jù)有關(guān)頻繁項集特性的先驗知識(priorknowledge)而命名的。該算法利用了一個層次順序搜索的循環(huán)方法來完成頻繁項集的挖掘工作。這一循環(huán)方法就是利用k-項集來產(chǎn)
7、生(k+1)-項集。具體做法就是:首先找出頻繁1-項集,記為L1;然后利用L1來挖掘L2,即頻繁2-項集;不斷如此循環(huán)下去直到無法發(fā)現(xiàn)更多的頻繁k-項集為止。每挖掘一層Lk就需要掃描整個數(shù)據(jù)庫一遍。該算法利用了如下兩個基本性質(zhì):1.任何頻集的子集必定是頻集;2.任何非頻繁項集的超集必定是非頻繁項集。連接步驟:為發(fā)現(xiàn)LK,可以將LK-1中兩個項集相連接以獲得一個LK的候選集合CK。設(shè)11和12為LK-1中的兩個項集(元素),記號li[j]表示11中的第j個項;如liEk-2]就表示li中的倒數(shù)第二項。為方便起見,假設(shè)交易數(shù)據(jù)庫中各交易記錄中各項均已按字典排序。若LK-1的連接操作記
8、為LKT十LK-1,它表示若11和12中的前(k-2)項是相同的,也就是說若有:(11[1]=12[1]A-A(ll[k-2]=12[k-2])All[k-l]<12[k-l],則LK-1中11和12的內(nèi)容就可以連接在一起。而條件ll[k-l]<12[k-l]可以確保不產(chǎn)生重復(fù)的項集。刪除步驟:CK是LK的一個超集,它其中的各元素(項集)不一定都是頻繁項集,但所有的頻繁k-項集一定都在CK中,即有LKCKo掃描一遍數(shù)據(jù)庫就可以決定CK中各候選項集(元素)的支持頻度,并由此獲得LK