數(shù)據(jù)挖掘各類(lèi)算法綜述.doc

數(shù)據(jù)挖掘各類(lèi)算法綜述.doc

ID:49940644

大小:86.50 KB

頁(yè)數(shù):15頁(yè)

時(shí)間:2020-03-03

數(shù)據(jù)挖掘各類(lèi)算法綜述.doc_第1頁(yè)
數(shù)據(jù)挖掘各類(lèi)算法綜述.doc_第2頁(yè)
數(shù)據(jù)挖掘各類(lèi)算法綜述.doc_第3頁(yè)
數(shù)據(jù)挖掘各類(lèi)算法綜述.doc_第4頁(yè)
數(shù)據(jù)挖掘各類(lèi)算法綜述.doc_第5頁(yè)
資源描述:

《數(shù)據(jù)挖掘各類(lèi)算法綜述.doc》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。

1、數(shù)據(jù)挖掘各類(lèi)算法綜述了解數(shù)據(jù)挖掘的各類(lèi)算法的原理和應(yīng)用領(lǐng)域以及優(yōu)缺點(diǎn)對(duì)于在實(shí)際的丁作屮選擇合適的方法,并加以改進(jìn)有很重要的指導(dǎo)意義。1.1關(guān)聯(lián)規(guī)則挖掘算法R.Agrawa]等人于1993年杵先提岀了挖掘顧客交易數(shù)據(jù)庫(kù)屮項(xiàng)集間的關(guān)聯(lián)規(guī)則問(wèn)題,其核心方法是基于頻集理論的遞推方法。此厲人們對(duì)關(guān)聯(lián)規(guī)則的挖掘問(wèn)題進(jìn)行了大景研究,包括對(duì)Apriori算法優(yōu)化、多層次關(guān)聯(lián)規(guī)則算法、多值屬性關(guān)聯(lián)規(guī)則算法、其他關(guān)聯(lián)規(guī)則算法籌,以提高算法挖掘規(guī)則的效率。1)Apriori算法Apriori算法是最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。算法Apriori利U“在給主的事務(wù)數(shù)據(jù)庫(kù)D中,任意

2、頻繁項(xiàng)集的非空子集都必須也是頻繁的”這一原理對(duì)事務(wù)數(shù)據(jù)庫(kù)進(jìn)行多次掃描,第一次掃描得出頻繁卜項(xiàng)集L,第k(k>l)次掃描前先利用第k-l次掃描的結(jié)果(即頻繁k-1項(xiàng)集1山-1)和函數(shù)Apriori—gen產(chǎn)生候選k-項(xiàng)集Ck,然府在掃描過(guò)程中確主6女中每個(gè)元索的支持?jǐn)?shù),最厲在每次掃描結(jié)束時(shí)計(jì)算出頻繁k-項(xiàng)集Lk,算法在當(dāng)頻繁葉項(xiàng)集為空時(shí)結(jié)束。算法:Apriori,使用根據(jù)候選生成的逐層迭代找出頻繁項(xiàng)集輸入:事務(wù)數(shù)據(jù)庫(kù)D;最小支持度閾值minsup輸出:D中的頻繁項(xiàng)集L方法:(1)Li=findfrequent1-itemsets(D);(2)for(k=2;Lk-iH①

3、;k++){(3)Ck=apriorigen(Lk-i,minsup);(4)foreachtransactiontuD{//seanDforcounts(5)Ct=subset(Ck,t);//getthesubsetoftthatareCandidates(6)foreachcandidsteceCt(7)c.count++;(8)}(1)Lk={cGCkIc.count》minsup};(11)returnL=UrLr;//apriori-gen用來(lái)產(chǎn)生候選k項(xiàng)集procedureapriorigen(Lr-i:(kT)項(xiàng)頻繁集,min_sup:最小值尺度)(1

4、)foreachitemsettGLk-iforeachitemsetfeeLk-iifA(6[2]=fe[2])A—A(6[k-2]=fe[k-2])A(6[k-i]

5、false;appriori£en做兩個(gè)動(dòng)作:連接和剪枝。在連接部分,Lki與Lk-1連接產(chǎn)生對(duì)能的候選(1-4步)。剪枝-部分(第5-7步)使川Apriori性質(zhì)刪除具有非頻繁子集的候選。非頻繁子集的測(cè)試在過(guò)程has_infrequent_subse中。有了頻繁項(xiàng)集就可以通過(guò)如卜的方法得到強(qiáng)關(guān)聯(lián)規(guī)則:?對(duì)于每個(gè)頻繁項(xiàng)集L,產(chǎn)生L的所有非空子集?對(duì)于L的每個(gè)非空子集s,如果supportcount(L)/supportcount(s)2minconf,則輸出規(guī)則“s?(L-s)”o其中minconf是最小置信度閾值為了提高Apriori的有效性,后來(lái)乂出現(xiàn)了基于散列、

6、實(shí)物壓縮、劃分、采樣和動(dòng)態(tài)項(xiàng)計(jì)數(shù)多個(gè)改進(jìn)算法。然而對(duì)于基于Apriori的頻集方法,即使進(jìn)行了優(yōu)化,一些固有的缺陷還是無(wú)法克服。Apriori的算法及其優(yōu)化算法可能產(chǎn)生大量的候選集。當(dāng)長(zhǎng)度為1的頻集有10000個(gè)的時(shí)候,長(zhǎng)度為2的候選集就會(huì)成指數(shù)倍增長(zhǎng),其候選集個(gè)數(shù)將會(huì)超過(guò)10。如果要生成一個(gè)很長(zhǎng)的規(guī)則吋,要產(chǎn)生的屮I'可元索也是巨大量的,此可采用FP樹(shù)算法解決。2)FP樹(shù)算法FP樹(shù)算法采用了一種FP-growth的方法。它采用了分而治之的策略:在對(duì)數(shù)據(jù)庫(kù)進(jìn)行第一次掃描后,把找到的頻集項(xiàng)壓縮進(jìn)一棵頻繁模式樹(shù)(FP-tree),同時(shí)依然保留其中的關(guān)聯(lián)信息。隨后再將FP-

7、tree分化成一些條件庫(kù),每個(gè)庫(kù)和一?個(gè)長(zhǎng)度為1的頻集相關(guān)。然后再對(duì)這些條件庫(kù)分別進(jìn)行挖掘。當(dāng)原始數(shù)據(jù)量很人的吋候,也可以結(jié)合劃分的方法,使得一個(gè)FP-tree可以放入主存中。實(shí)驗(yàn)表明,F(xiàn)P-growth對(duì)不同長(zhǎng)度的規(guī)則都有很好的適應(yīng)性,同吋在效率上比Apriori算法有很人的提高。算法:FP-增長(zhǎng)。使用FP-樹(shù),通過(guò)模式段增長(zhǎng),挖掘頻繁模式。輸入:事務(wù)數(shù)據(jù)庫(kù)D;最小支持度閾值minsup;輸出:頻繁模式的完全集方法:(1)按以下步驟構(gòu)造FP-樹(shù):(a)掃描數(shù)據(jù)庫(kù)D—次。收集頻繁項(xiàng)的集合F和它們的支持度。對(duì)F按照支持度降序排序,結(jié)果為頻繁項(xiàng)表L。(b

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。