數(shù)據(jù)挖掘各類(lèi)算法綜述.doc

ID：49940644

大小：86.50 KB

頁(yè)數(shù)：15頁(yè)

時(shí)間：2020-03-03

資源描述：

《數(shù)據(jù)挖掘各類(lèi)算法綜述.doc》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。

1、數(shù)據(jù)挖掘各類(lèi)算法綜述了解數(shù)據(jù)挖掘的各類(lèi)算法的原理和應(yīng)用領(lǐng)域以及優(yōu)缺點(diǎn)對(duì)于在實(shí)際的丁作屮選擇合適的方法，并加以改進(jìn)有很重要的指導(dǎo)意義。1.1關(guān)聯(lián)規(guī)則挖掘算法R.Agrawa］等人于1993年杵先提岀了挖掘顧客交易數(shù)據(jù)庫(kù)屮項(xiàng)集間的關(guān)聯(lián)規(guī)則問(wèn)題，其核心方法是基于頻集理論的遞推方法。此厲人們對(duì)關(guān)聯(lián)規(guī)則的挖掘問(wèn)題進(jìn)行了大景研究,包括對(duì)Apriori算法優(yōu)化、多層次關(guān)聯(lián)規(guī)則算法、多值屬性關(guān)聯(lián)規(guī)則算法、其他關(guān)聯(lián)規(guī)則算法籌，以提高算法挖掘規(guī)則的效率。1)Apriori算法Apriori算法是最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。算法Apriori利U“在給主的事務(wù)數(shù)據(jù)庫(kù)D中，任意

2、頻繁項(xiàng)集的非空子集都必須也是頻繁的”這一原理對(duì)事務(wù)數(shù)據(jù)庫(kù)進(jìn)行多次掃描，第一次掃描得出頻繁卜項(xiàng)集L,第k(k>l)次掃描前先利用第k-l次掃描的結(jié)果(即頻繁k-1項(xiàng)集1山-1)和函數(shù)Apriori—gen產(chǎn)生候選k-項(xiàng)集Ck，然府在掃描過(guò)程中確主6女中每個(gè)元索的支持?jǐn)?shù)，最厲在每次掃描結(jié)束時(shí)計(jì)算出頻繁k-項(xiàng)集Lk,算法在當(dāng)頻繁葉項(xiàng)集為空時(shí)結(jié)束。算法：Apriori,使用根據(jù)候選生成的逐層迭代找出頻繁項(xiàng)集輸入：事務(wù)數(shù)據(jù)庫(kù)D;最小支持度閾值minsup輸出：D中的頻繁項(xiàng)集L方法：(1)Li=findfrequent1-itemsets(D);(2)for(k=2;Lk-iH①

3、；k++){(3)Ck=apriorigen(Lk-i,minsup);(4)foreachtransactiontuD{//seanDforcounts(5)Ct=subset(Ck,t);//getthesubsetoftthatareCandidates(6)foreachcandidsteceCt(7)c.count++;(8)}(1)Lk={cGCkIc.count》minsup};(11)returnL=UrLr；//apriori-gen用來(lái)產(chǎn)生候選k項(xiàng)集procedureapriorigen(Lr-i:(kT)項(xiàng)頻繁集,min_sup：最小值尺度)(1

4、)foreachitemsettGLk-iforeachitemsetfeeLk-iifA(6[2]=fe[2])A—A(6[k-2]=fe[k-2])A(6[k-i]

5、false;appriori￡en做兩個(gè)動(dòng)作：連接和剪枝。在連接部分，Lki與Lk-1連接產(chǎn)生對(duì)能的候選（1-4步）。剪枝-部分（第5-7步）使川Apriori性質(zhì)刪除具有非頻繁子集的候選。非頻繁子集的測(cè)試在過(guò)程has_infrequent_subse中。有了頻繁項(xiàng)集就可以通過(guò)如卜的方法得到強(qiáng)關(guān)聯(lián)規(guī)則：?對(duì)于每個(gè)頻繁項(xiàng)集L,產(chǎn)生L的所有非空子集?對(duì)于L的每個(gè)非空子集s,如果supportcount（L）/supportcount（s）2minconf,則輸出規(guī)則“s?（L-s）”o其中minconf是最小置信度閾值為了提高Apriori的有效性，后來(lái)乂出現(xiàn)了基于散列、

6、實(shí)物壓縮、劃分、采樣和動(dòng)態(tài)項(xiàng)計(jì)數(shù)多個(gè)改進(jìn)算法。然而對(duì)于基于Apriori的頻集方法，即使進(jìn)行了優(yōu)化，一些固有的缺陷還是無(wú)法克服。Apriori的算法及其優(yōu)化算法可能產(chǎn)生大量的候選集。當(dāng)長(zhǎng)度為1的頻集有10000個(gè)的時(shí)候，長(zhǎng)度為2的候選集就會(huì)成指數(shù)倍增長(zhǎng)，其候選集個(gè)數(shù)將會(huì)超過(guò)10。如果要生成一個(gè)很長(zhǎng)的規(guī)則吋，要產(chǎn)生的屮I'可元索也是巨大量的，此可采用FP樹(shù)算法解決。2)FP樹(shù)算法FP樹(shù)算法采用了一種FP-growth的方法。它采用了分而治之的策略：在對(duì)數(shù)據(jù)庫(kù)進(jìn)行第一次掃描后，把找到的頻集項(xiàng)壓縮進(jìn)一棵頻繁模式樹(shù)(FP-tree),同時(shí)依然保留其中的關(guān)聯(lián)信息。隨后再將FP-

7、tree分化成一些條件庫(kù)，每個(gè)庫(kù)和一?個(gè)長(zhǎng)度為1的頻集相關(guān)。然后再對(duì)這些條件庫(kù)分別進(jìn)行挖掘。當(dāng)原始數(shù)據(jù)量很人的吋候，也可以結(jié)合劃分的方法，使得一個(gè)FP-tree可以放入主存中。實(shí)驗(yàn)表明，F(xiàn)P-growth對(duì)不同長(zhǎng)度的規(guī)則都有很好的適應(yīng)性，同吋在效率上比Apriori算法有很人的提高。算法：FP-增長(zhǎng)。使用FP-樹(shù)，通過(guò)模式段增長(zhǎng)，挖掘頻繁模式。輸入：事務(wù)數(shù)據(jù)庫(kù)D;最小支持度閾值minsup;輸出：頻繁模式的完全集方法：(1)按以下步驟構(gòu)造FP-樹(shù)：(a)掃描數(shù)據(jù)庫(kù)D—次。收集頻繁項(xiàng)的集合F和它們的支持度。對(duì)F按照支持度降序排序，結(jié)果為頻繁項(xiàng)表L。(b

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 15



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

數(shù)據(jù)挖掘各類(lèi)算法綜述.doc

數(shù)據(jù)挖掘各類(lèi)算法綜述.doc

相關(guān)文章

相關(guān)標(biāo)簽