資源描述:
《關聯(lián)規(guī)則數(shù)據(jù)挖掘論文.doc》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在應用文檔-天天文庫。
1、學無止境關聯(lián)規(guī)則數(shù)據(jù)挖掘論文1相關技術關聯(lián)規(guī)則最初是針對購物籃分析問題提出的,目的是發(fā)現(xiàn)事務數(shù)據(jù)庫(TransactionDatabase)中不同商品之間的聯(lián)系。關聯(lián)規(guī)則是形如A=》B的蘊涵式,其中A稱為該關聯(lián)規(guī)則的前項,B稱為該關聯(lián)規(guī)則的后項。事務,是一個明確定義的商業(yè)行為,如顧客在商店購物就是一次典型的事務。由用戶設定的支持度和置信度的門檻值,當sup-port(A=>B)、confidence(A=>B)分別大于等于各自的門檻值時,認為A=>B是有趣的,此兩值稱為最小支持度(minsupport)和最小置信度(minconfidence)。同時滿足mi
2、nsupport和minconfidence的這種關聯(lián)規(guī)則就叫做強的關聯(lián)規(guī)則。設任務相關的數(shù)據(jù)D是數(shù)據(jù)庫事物的集合,當項集的支持計數(shù)≥D中事務總數(shù)
3、D
4、與minsup-port的乘積時,就叫做頻繁項集,當項集的支持計數(shù)可能≥D中事務總數(shù)
5、D
6、與minsupport的乘積時,就叫做侯選項集。所有侯選項集K-項集的集合記作Ck,所有頻繁項集K-項集的集合常記作Lk,很明顯Lk奐Ck。如果僅依賴最小支持度和最小置信度這兩個參數(shù)的限制,所挖掘出的強關聯(lián)規(guī)則不一定是用戶感興趣的,因此,用戶可以根據(jù)實際應用的需求,再結合自身的領域知識,通過選擇與實際分析任務有關的數(shù)據(jù)集
7、,設置不同的參數(shù),限定前項和后項的個數(shù),選擇前項和后項包含的屬性等操作,對關聯(lián)規(guī)則的挖掘進行約束。2模糊集理論的引入在討論實際問題的時候,需要判定模糊概念涵義,如判斷某個數(shù)據(jù)在模糊集的定義和歸屬,這時就需要普通集合與模糊集合可依某種法則相互轉換。模糊理論中的截集是模糊集合和普通集合之間相互轉換的一座橋梁。3基于事務間數(shù)值型關聯(lián)規(guī)則的數(shù)據(jù)挖掘算法2學無止境假設有一就業(yè)數(shù)據(jù)庫,先通過數(shù)據(jù)整理,將原始數(shù)據(jù)記錄值區(qū)間[0,10]偏置10個單位。由此就得到了經(jīng)過偏置后的數(shù)據(jù)庫記錄。再依滑動窗口方法,設maxspan=1(該值可以依實際情況的需要來定),就可將偏置后的數(shù)
8、據(jù)庫數(shù)據(jù)整理轉化為擴展事務數(shù)據(jù)庫。再把擴展事務數(shù)據(jù)庫記錄通過隸屬度函數(shù)轉化為對應的隸屬度。4結語事務間具有相互關聯(lián)的項天生就比事務內(nèi)的項之間的關聯(lián)的支持度來得低,這是一個很應值得注意的現(xiàn)象。概括出來就是事務間項具有的低支持度性質,由此衍生出來的就是對提高低支持度項集間關聯(lián)規(guī)則挖掘效率的討論及其應用。通過基于相似度度量的方法來轉換思路不失為一種好的方法,簡單地說就是在保證失真能被有效控制的狀態(tài)下通過科學有效的方法使我們能夠最大程度地逼近來接近真值。如何把這一思路運用到事務間關聯(lián)規(guī)則的挖掘上特別是能行之有效地對兩個或兩個以上的項進行挖掘,這正是本文所想認真討論的
9、問題。,本文的模糊關聯(lián)規(guī)則算法對數(shù)據(jù)量較小或面對中小型數(shù)據(jù)量進行處理(或者直接處理)也是可以的,但面對大數(shù)據(jù)量或超大數(shù)據(jù)量卻是存在一些問題的。原始數(shù)據(jù)庫轉化為擴展數(shù)據(jù)庫光這個計算工作量開銷的時間復雜度都是值得深思的;缺少信息壓縮存儲技術以便盡量降低算法的空間復雜度,如采用Hash技術等。2