關(guān)聯(lián)規(guī)則挖掘算法的研究

ID：36749055

大小：6.82 MB

頁數(shù)：70頁

時間：2019-05-14

資源描述：

《關(guān)聯(lián)規(guī)則挖掘算法的研究》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在學術(shù)論文-天天文庫。

1、太原理工大學碩士研究生學位論文㈨㈣㈨㈨㈣Ⅲ㈣叭㈨洲Y2156161關(guān)聯(lián)規(guī)則挖掘算法的研究摘要隨著時代的快速發(fā)展和數(shù)據(jù)庫技術(shù)的日臻成熟，產(chǎn)生的數(shù)據(jù)量以幾何倍數(shù)增長，我們迫切地希望從海量數(shù)據(jù)背后挖掘出某些規(guī)律或者有價值的東西，也就是信息，來指導我們未來的發(fā)展。而數(shù)據(jù)挖掘正滿足了這樣的需要，它是一種新的信息分析技術(shù)，利用計算機‘21從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中，提取隱含在其中的、人們預(yù)先不知道的、具有潛在利用價值信息和知識的過程。目前，數(shù)據(jù)挖掘主要分為關(guān)聯(lián)規(guī)則挖掘、聚類、分類、時序模式發(fā)現(xiàn)等幾大分支。而關(guān)聯(lián)規(guī)則挖掘作為其中最為重要的一個分支，在應(yīng)用方面得到了廣泛的發(fā)展。

2、關(guān)聯(lián)規(guī)則挖掘是通過分析數(shù)據(jù)庫，進而發(fā)現(xiàn)數(shù)據(jù)庫中大量項集之間的關(guān)聯(lián)關(guān)系。它最早由Agrawal提出，并在AIS算法基礎(chǔ)上進行了完善而后提出了Apriori算法，Apriori算法是最經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法。它利用逐層搜索的迭代方法，從數(shù)據(jù)庫中挖掘出滿足最小支持度和置信度閾值的關(guān)聯(lián)規(guī)則。Apriori算法分為連接和剪枝兩步。但Apriori算法有其固有缺陷：1、各階段產(chǎn)生的G過大，尤其是當k：2時，候選集數(shù)目驚人。2、每生成一個候選集，都會掃描一遍數(shù)據(jù)庫，造成了巨大的I／O開銷，也增加了算法的時間復雜度。本文針對上述問題提出了一種改進的關(guān)聯(lián)規(guī)則挖掘算法，主要思路為：1、采用矩陣這種數(shù)據(jù)結(jié)構(gòu)，掃描一

3、遍數(shù)據(jù)庫，將原始事務(wù)數(shù)據(jù)庫轉(zhuǎn)化為0—1矩陣，不僅節(jié)省了存儲空間，而且在進行數(shù)據(jù)挖掘操作時可拋棄原T太原理工大學碩士研究生學位論文始數(shù)據(jù)庫，只利用矩陣，減少了掃描數(shù)據(jù)庫造成的I／0開銷。2、利用原始矩陣和其轉(zhuǎn)置矩陣，進行矩陣運算，得到2一候選集集合，矩陣運算簡單，加快了項集的查找速度。3、根據(jù)結(jié)果上三角矩陣分析數(shù)據(jù)，減少了候選數(shù)據(jù)項的數(shù)量，更快的確定頻繁項集，快速得到所需的關(guān)聯(lián)規(guī)則。通過實驗對比分析，該算法具有較低的時間復雜度和較高的運行效率。正因如此，加上矩陣占有極小的內(nèi)存空間，將該算法應(yīng)用到超市零售業(yè)的大數(shù)據(jù)集關(guān)聯(lián)規(guī)則挖掘中，找出銷售物品間的關(guān)聯(lián)規(guī)則，為超市在今后制定銷售策略提供了科學決策依

4、據(jù)，因此該算法具有極大的實用性和適用性。關(guān)鍵詞：數(shù)據(jù)挖掘，關(guān)聯(lián)規(guī)則挖掘，Apriori算法，矩陣，矩陣運算THERESEARCHOFASSOCIATIONRULESMININGALGOR』THMABSTRACTAsthetimedevelopsrapidlyandthetechnologyofdatabasegetsmaturegradually，thequantityofdataproducedhasballoonedexpoentially，SOweareeagertogetsomerulesorsomethingvaluablefromthemajorityofdata，whichare

5、alsonamedasinformation，toguideUStodeveloppracticallyinthefuture．Datamining，whichcouldmeettherequirement，isanoveltechnologyofinformationanalysis，whichcouldextractthehidden，implicit，valid，novelandinterestingspatialornon—spatialpattemsorrulesfromlarge—amount，incomplete，noisy，fuzzy，random，andpracticalda

6、tabyusingcomputer．Atpresent，dataminingmainlyinvolvesassociationrules，clustering，classification，time—seriespatternsdiscoveryandSOon．Associationrulesmining，asoneofthemostimportantbranchesofdatamining，hasawideapplicationinvariousaspects．Itcandiscoverrelationshipbetweenitemsetsaccordingtoanalyzingdataba

7、se．AssociationrulesminingwasproposedoriginallybyAgrawal，andputforwardApriorialgorithmafterimprovingtheAISalgorithm．Apriorialgorithmisthemostclassicalassociationrulesminingalgorithm．Itusestheiterationm

當前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 70



此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容，確認文檔內(nèi)容符合您的需求后進行下載，若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

關(guān)聯(lián)規(guī)則挖掘算法的研究

關(guān)聯(lián)規(guī)則挖掘算法的研究

相關(guān)文章

相關(guān)標簽