關(guān)聯(lián)規(guī)則挖掘算法的研究

關(guān)聯(lián)規(guī)則挖掘算法的研究

ID:36749055

大小:6.82 MB

頁數(shù):70頁

時間:2019-05-14

關(guān)聯(lián)規(guī)則挖掘算法的研究_第1頁
關(guān)聯(lián)規(guī)則挖掘算法的研究_第2頁
關(guān)聯(lián)規(guī)則挖掘算法的研究_第3頁
關(guān)聯(lián)規(guī)則挖掘算法的研究_第4頁
關(guān)聯(lián)規(guī)則挖掘算法的研究_第5頁
資源描述:

《關(guān)聯(lián)規(guī)則挖掘算法的研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、太原理工大學(xué)碩士研究生學(xué)位論文㈨㈣㈨㈨㈣Ⅲ㈣叭㈨洲Y2156161關(guān)聯(lián)規(guī)則挖掘算法的研究摘要隨著時代的快速發(fā)展和數(shù)據(jù)庫技術(shù)的日臻成熟,產(chǎn)生的數(shù)據(jù)量以幾何倍數(shù)增長,我們迫切地希望從海量數(shù)據(jù)背后挖掘出某些規(guī)律或者有價值的東西,也就是信息,來指導(dǎo)我們未來的發(fā)展。而數(shù)據(jù)挖掘正滿足了這樣的需要,它是一種新的信息分析技術(shù),利用計算機‘21從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們預(yù)先不知道的、具有潛在利用價值信息和知識的過程。目前,數(shù)據(jù)挖掘主要分為關(guān)聯(lián)規(guī)則挖掘、聚類、分類、時序模式發(fā)現(xiàn)等幾大分支。而關(guān)聯(lián)規(guī)則挖掘作為其中最為重要的一個分支,在應(yīng)用方面得到了廣泛的發(fā)展。

2、關(guān)聯(lián)規(guī)則挖掘是通過分析數(shù)據(jù)庫,進而發(fā)現(xiàn)數(shù)據(jù)庫中大量項集之間的關(guān)聯(lián)關(guān)系。它最早由Agrawal提出,并在AIS算法基礎(chǔ)上進行了完善而后提出了Apriori算法,Apriori算法是最經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法。它利用逐層搜索的迭代方法,從數(shù)據(jù)庫中挖掘出滿足最小支持度和置信度閾值的關(guān)聯(lián)規(guī)則。Apriori算法分為連接和剪枝兩步。但Apriori算法有其固有缺陷:1、各階段產(chǎn)生的G過大,尤其是當(dāng)k:2時,候選集數(shù)目驚人。2、每生成一個候選集,都會掃描一遍數(shù)據(jù)庫,造成了巨大的I/O開銷,也增加了算法的時間復(fù)雜度。本文針對上述問題提出了一種改進的關(guān)聯(lián)規(guī)則挖掘算法,主要思路為:1、采用矩陣這種數(shù)據(jù)結(jié)構(gòu),掃描一

3、遍數(shù)據(jù)庫,將原始事務(wù)數(shù)據(jù)庫轉(zhuǎn)化為0—1矩陣,不僅節(jié)省了存儲空間,而且在進行數(shù)據(jù)挖掘操作時可拋棄原T太原理工大學(xué)碩士研究生學(xué)位論文始數(shù)據(jù)庫,只利用矩陣,減少了掃描數(shù)據(jù)庫造成的I/0開銷。2、利用原始矩陣和其轉(zhuǎn)置矩陣,進行矩陣運算,得到2一候選集集合,矩陣運算簡單,加快了項集的查找速度。3、根據(jù)結(jié)果上三角矩陣分析數(shù)據(jù),減少了候選數(shù)據(jù)項的數(shù)量,更快的確定頻繁項集,快速得到所需的關(guān)聯(lián)規(guī)則。通過實驗對比分析,該算法具有較低的時間復(fù)雜度和較高的運行效率。正因如此,加上矩陣占有極小的內(nèi)存空間,將該算法應(yīng)用到超市零售業(yè)的大數(shù)據(jù)集關(guān)聯(lián)規(guī)則挖掘中,找出銷售物品間的關(guān)聯(lián)規(guī)則,為超市在今后制定銷售策略提供了科學(xué)決策依

4、據(jù),因此該算法具有極大的實用性和適用性。關(guān)鍵詞:數(shù)據(jù)挖掘,關(guān)聯(lián)規(guī)則挖掘,Apriori算法,矩陣,矩陣運算THERESEARCHOFASSOCIATIONRULESMININGALGOR』THMABSTRACTAsthetimedevelopsrapidlyandthetechnologyofdatabasegetsmaturegradually,thequantityofdataproducedhasballoonedexpoentially,SOweareeagertogetsomerulesorsomethingvaluablefromthemajorityofdata,whichare

5、alsonamedasinformation,toguideUStodeveloppracticallyinthefuture.Datamining,whichcouldmeettherequirement,isanoveltechnologyofinformationanalysis,whichcouldextractthehidden,implicit,valid,novelandinterestingspatialornon—spatialpattemsorrulesfromlarge—amount,incomplete,noisy,fuzzy,random,andpracticalda

6、tabyusingcomputer.Atpresent,dataminingmainlyinvolvesassociationrules,clustering,classification,time—seriespatternsdiscoveryandSOon.Associationrulesmining,asoneofthemostimportantbranchesofdatamining,hasawideapplicationinvariousaspects.Itcandiscoverrelationshipbetweenitemsetsaccordingtoanalyzingdataba

7、se.AssociationrulesminingwasproposedoriginallybyAgrawal,andputforwardApriorialgorithmafterimprovingtheAISalgorithm.Apriorialgorithmisthemostclassicalassociationrulesminingalgorithm.Itusestheiterationm

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。