資源描述:
《何鎮(zhèn)宏_基于Spark的分布式頻繁項集挖掘算法研究》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、1分類號:TP391單位代碼:10636密級:公開學號:20151301003碩士學位論文中文論文題目:并行頻繁項集挖掘算法研究英文論文題目:ResearchonParallelFrequentItemsetsMiningAlgorithm論文作者:何鎮(zhèn)宏指導教師:楊軍專業(yè)名稱:計算機應用技術研究方向:并行頻繁項集挖掘算法所在學院:計算機科學學院論文提交日期:2018年5月17日論文答辯日期:2018年5月27日1并行關聯(lián)規(guī)則頻繁項集挖掘算法研究并行頻繁項集挖掘算法研究作者:何鎮(zhèn)宏指導老師:楊軍摘要頻繁項集挖掘用來發(fā)現(xiàn)數(shù)據(jù)項集中的頻繁模式,在商品關聯(lián)分析和超市
2、促銷策略決策中有著廣泛的應用。但是,傳統(tǒng)的頻繁項集挖掘算法的時間復雜度較高,因此許多國內外的學者們致力于提高相關算法的性能。隨著大數(shù)據(jù)時代的到來,傳統(tǒng)的頻繁項集挖掘算法往往受限于單臺計算機有限的計算能力和存儲容量,無法滿足用戶對于處理更大規(guī)模的頻繁項集挖掘問題的迫切需求。隨著大數(shù)據(jù)技術的發(fā)展,基于Hadoop平臺的頻繁項集挖掘算法在時間效率上相比于單機算法有了很大的提高。最新的內存計算框架Spark相比于Hadoop平臺具有并行計算,Spark已成為目前工業(yè)界搭建分布式計算平臺的主流框架。因此,本文將Spark框架和頻繁項集挖掘算法相結合,研究在Spark平臺
3、下實現(xiàn)并行頻繁項集挖掘算法,以提高頻繁項集挖掘算法的時間效率。本文的主要工作包含如下幾個方面。(1)學習研究了經(jīng)典的頻繁項集挖掘算法,包括Apriori算法,DHP算法,F(xiàn)P-Growth算法。(2)針對Apriori算法由K頻繁項集生成K+1頻繁項集的過程中,需要多次重復檢測項集中的二項子集是否頻繁的問題,提出了一種基于二維表的Apriori改進算法,用一個二維表記錄二項子集是否頻繁,從而減少了判斷二項子集是否頻繁需要多次掃描事務數(shù)據(jù)庫的時間。實驗結果表明,本文所提出的改進Apriori算法比原Apriori算法相比,可以明顯減少算法的運行時間。(3)學習研
4、究了Spark框架的相關技術,基于Linux操作系統(tǒng),運用Java結合Scala開發(fā)語言,搭建了基于Spark平臺的分布式開發(fā)環(huán)境,用于實現(xiàn)所提出的并行頻繁項集挖掘算法。(4)針對DHP在第一次統(tǒng)計桶中項集數(shù)目時,會生成許多重復的候選項集,提出了基于Spark單節(jié)點的壓縮DHP算法,該算法用形象地數(shù)字形式代替重復的項集數(shù),并且在第一次掃描事務數(shù)據(jù)庫時就實施,通過實際的試驗證明,提出的這個壓縮改進算法在時間復雜度上明顯比沒有采用壓縮DHP的單節(jié)點DHP算法要低。(5)針對單節(jié)點只有一個計算單元的不足,研究了基于集群的Spark分布式計算框架。利用Spark多節(jié)點
5、集群分布式結構實現(xiàn)了分布式DHP算法和分布式FP-Growth算法,充分利用了集群的優(yōu)勢。在模擬數(shù)據(jù)和UCI數(shù)據(jù)集Pumsbstar上的實驗結果表明,基于集群的并行策略比基于單節(jié)點的并行環(huán)境具有更好的時間效率。關鍵詞:Spark平臺;關聯(lián)規(guī)則;頻繁項集;挖掘算法;DHP;FP-Growth;IIIIII并行關聯(lián)規(guī)則頻繁項集挖掘算法研究ResearchonParallelFrequentItemsetsMiningAlgorithmABSTRACT:Frequentitemsetsminingisusedtodiscoverfrequentpatternsind
6、ataitemsets.Itiswidelyusedincommodityassociationanalysisandsupermarketpromotionstrategydecision.However,thetimecomplexityoftraditionalfrequentitemsetminingalgorithmsishigh,somanydomesticandforeignscholarsarecommittedtoimprovingtheperformanceofrelatedalgorithms.Withtheadventoftheerao
7、fbigdata,traditionalfrequentitemsetsminingalgorithmsareoftenlimitedbythelimitedcomputingpowerandstoragecapacityofasinglecomputer,andcannotmeettheurgentneedsofusersfordealingwithlarger-scalefrequentitemsetminingproblems.Withthedevelopmentofbigdatatechnology,frequentitemsetminingalgor
8、ithmsbasedonHadoopp