資源描述:
《關聯(lián)規(guī)則大數(shù)據(jù)挖掘》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在工程資料-天天文庫。
1、實用標準關聯(lián)規(guī)則數(shù)據(jù)挖掘學習報告文檔大全實用標準目錄引言2案例2關聯(lián)規(guī)則3(一)關聯(lián)規(guī)則定義(二)相關概念(三)關聯(lián)規(guī)則分類數(shù)據(jù)6(一)小型數(shù)據(jù)(二)大型數(shù)據(jù)應用軟件7(一)WEKA(二)IBMSPSSModeler數(shù)據(jù)挖掘12總結27文檔大全實用標準一、引言數(shù)據(jù)庫與互聯(lián)網(wǎng)技術在日益發(fā)展壯大,人們每天可以獲得的信息量呈指數(shù)級增長。如何從這浩如瀚海的數(shù)據(jù)中找出我們需要的數(shù)據(jù)顯得尤為重要。數(shù)據(jù)挖掘又為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學有關,并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、
2、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。數(shù)據(jù)挖掘大致分為以下幾類:分類(Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯(lián)規(guī)則(Affinitygroupingorassociationrules)、聚類(Clustering)、復雜數(shù)據(jù)類型挖掘(Text,Web,圖形圖像,視頻,音頻等)。二、案例?"尿布與啤酒"的故事。在一家超市里,有一個有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。這不是一個笑話,而是發(fā)生在美國沃爾瑪連鎖店超市的真實案例,并一直為商家所津
3、津樂道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng),為了能夠準確了解顧客在其門店的購買習慣,沃爾瑪對其顧客的購物行為進行購物籃分析,想知道顧客經(jīng)常一起購買的商品有哪些。沃爾瑪數(shù)據(jù)倉庫里集中了其各門店的詳細原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎上,沃爾瑪利用數(shù)據(jù)挖掘方法對這些數(shù)據(jù)進行分析和挖掘。一個意外的發(fā)現(xiàn)是:"跟尿布一起購買最多的商品竟是啤酒!經(jīng)過大量實際調(diào)查和分析,揭示了一個隱藏在"尿布與啤酒"背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買
4、尿布,而丈夫們在買尿布后又隨手帶回了他們喜歡的啤酒。按常規(guī)思維,尿布與啤酒風馬牛不相及,若不是借助數(shù)據(jù)挖掘技術對大量交易數(shù)據(jù)進行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價值的規(guī)律的。文檔大全實用標準在這個案例中使用了數(shù)據(jù)挖掘中的關聯(lián)規(guī)則分析。關聯(lián)分析是發(fā)現(xiàn)交易數(shù)據(jù)庫中不同項之間的聯(lián)系。毫無疑問,關聯(lián)分析中發(fā)現(xiàn)的規(guī)則為超市帶來了更多的收益。如果我們能在生活中對關聯(lián)分析進行應用,一定可以解決更多的問題。數(shù)據(jù)關聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關聯(lián)。關聯(lián)可分為簡單關聯(lián)、時序關聯(lián)、因果關聯(lián)。關聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關聯(lián)網(wǎng)。有
5、時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關聯(lián)函數(shù),即使知道也是不確定的,因此關聯(lián)分析生成的規(guī)則帶有可信度。關聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關聯(lián)或相關聯(lián)系。Agrawal等于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫中項集間的關聯(lián)規(guī)則問題,以后諸多的研究人員對關聯(lián)規(guī)則的挖掘問題進行了大量的研究。他們的工作包括對原有的算法進行優(yōu)化,如引入隨機采樣、并行的思想等,以提高算法挖掘規(guī)則的效率;對關聯(lián)規(guī)則的應用進行推廣。關聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一個重要的課題,最近幾年已被業(yè)界所廣泛研究。一、關聯(lián)規(guī)則(一)關聯(lián)規(guī)則定義關聯(lián)分析是一種簡單、實用的分析技術,就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關聯(lián)性或相關性,從而描述了一
6、個事物中某些屬性同時出現(xiàn)的規(guī)律和模式。關聯(lián)分析是從大量數(shù)據(jù)中發(fā)現(xiàn)項集之間有趣的關聯(lián)和相關聯(lián)系。關聯(lián)分析的一個典型例子是購物籃分析。該過程通過發(fā)現(xiàn)顧客放人其購物籃中的不同商品之間的聯(lián)系,分析顧客的購買習慣。通過了解哪些商品頻繁地被顧客同時購買,這種關聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營銷策略。其他的應用還包括價目表設計、商品促銷、商品的排放和基于購買模式的顧客劃分。(二)相關概念1.關聯(lián)規(guī)則? 關聯(lián)規(guī)則是指數(shù)據(jù)之間的簡單的使用規(guī)則,是指數(shù)據(jù)之間的相互依賴關系。關聯(lián)規(guī)則形如:XY;其中XI,YI,并且X∩Y=。X為先決條件,Y為結果;關聯(lián)規(guī)則反映了項目集X出現(xiàn)的同時項目集Y也會跟著出現(xiàn)。2.支持
7、度(Support)?文檔大全實用標準 設X屬于數(shù)據(jù)項目集,為事務數(shù)據(jù)庫中包含X的記錄條數(shù),為事務數(shù)據(jù)庫中記錄的總個數(shù),那么項目集X的支持度=/支持度表示項目集在事物集中出現(xiàn)的頻率的是多少。3.置信度(Confidence)? 有關聯(lián)規(guī)則XY,其中XI,YI,并且X∩Y=,那么XY的置信度為:?Conf(XY)=*100%=P(Y
8、X)?。置信度是反映在事物X中出現(xiàn)事物Y的條件概率。4.強關聯(lián)規(guī)則如果某條規(guī)則同時滿足最小支持度和最小置信度則稱