資源描述:
《并行頻繁項集挖掘算法研究》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。
1、1分類號:TP391單位代碼:10636密級:公開學號:20151301003碩士學位論文中文論文題目:并行頻繁項集挖掘算法研究英文論文題目:ResearchonParallelFrequentItemsetsMiningAlgorithm論文作者:指導教師:專業(yè)名稱:計算機應用技術研究方向:并行頻繁項集挖掘算法所在學院:計算機科學學院論文提交日期:2018年月日論文答辯日期:2018年月日四川師范大學士學位論文附件2:論文獨創(chuàng)性及使用授權(quán)聲明四川師范大學學位論文獨創(chuàng)性聲明本人聲明:所呈交學位論文,是本人在導師指導下,獨立進行研究工作所取得的成果。
2、除文中已經(jīng)注明引用的內(nèi)容外,本論文不含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的作品或成果。對本文的研究做出重要貢獻的個人和集體,均已在文中以明確方式標明。本聲明的法律結(jié)果由本人承擔。本人承諾:已提交的學位論文電子版與論文紙本的內(nèi)容一致。如因不符而引起的學術聲譽上的損失由本人自負。學位論文作者:簽字日期:年月日四川師范大學學位論文版權(quán)使用授權(quán)書本人同意所撰寫學位論文的使用授權(quán)遵照學校的管理規(guī)定:學校作為申請學位的條件之一,學位論文著作權(quán)擁有者須授權(quán)所在大學擁有學位論文的部分使用權(quán),即:1)已獲學位的研究生必須按學校規(guī)定提交印刷版和電子版學位論文,可以將學
3、位論文的全部或部分內(nèi)容編入有關數(shù)據(jù)庫供檢索;2)為教學、科研和學術交流目的,學??梢詫⒐_的學位論文或解密后的學位論文作為資料在圖書館、資料室等場所或在有關網(wǎng)絡上供閱讀、瀏覽。本人授權(quán)萬方數(shù)據(jù)電子出版社將本學位論文收錄到《中國學位論文全文數(shù)據(jù)庫》,并通過網(wǎng)絡向社會公眾提供信息服務。同意按相關規(guī)定享受相關權(quán)益。(保密的學位論文在解密后適用本授權(quán)書)學位論文作者簽名:導師簽名:簽字日期:年月日簽字日期:年月日并行關聯(lián)規(guī)則頻繁項集挖掘算法研究并行頻繁項集挖掘算法研究作者:何鎮(zhèn)宏指導老師:楊軍摘要頻繁項集挖掘用來發(fā)現(xiàn)數(shù)據(jù)項集中的頻繁模式,在商品關聯(lián)分析和超
4、市促銷策略決策中有著廣泛的應用。但是,傳統(tǒng)的頻繁項集挖掘算法的時間復雜度較高,因此許多國內(nèi)外的學者們致力于提高相關算法的性能。隨著大數(shù)據(jù)時代的到來,傳統(tǒng)的頻繁項集挖掘算法往往受限于單臺計算機有限的計算能力和存儲容量,無法滿足用戶對于處理更大規(guī)模的頻繁項集挖掘問題的迫切需求。隨著大數(shù)據(jù)技術的發(fā)展,基于Hadoop平臺的頻繁項集挖掘算法在時間效率上相比于單機算法有了很大的提高。最新的內(nèi)存計算框架Spark相比于Hadoop平臺具有并行計算,Spark已成為目前工業(yè)界搭建分布式計算平臺的主流框架。因此,本文將Spark框架和頻繁項集挖掘算法相結(jié)合,研究在
5、Spark平臺下實現(xiàn)并行頻繁項集挖掘算法,以提高頻繁項集挖掘算法的時間效率。本文的主要工作包含如下幾個方面。(1)學習研究了經(jīng)典的頻繁項集挖掘算法,包括Apriori算法,DHP算法,F(xiàn)P-Growth算法。(2)針對Apriori算法由K頻繁項集生成K+1頻繁項集的過程中,需要多次重復檢測項集中的二項子集是否頻繁的問題,提出了一種基于二維表的Apriori改進算法,用一個二維表記錄二項子集是否頻繁,從而減少了判斷二項子集是否頻繁需要多次掃描事務數(shù)據(jù)庫的時間。實驗結(jié)果表明,本文所提出的改進Apriori算法比原Apriori算法相比,可以明顯減少算
6、法的運行時間。(3)學習研究了Spark框架的相關技術,基于Linux操作系統(tǒng),運用Java結(jié)合Scala開發(fā)語言,搭建了基于Spark平臺的分布式開發(fā)環(huán)境,用于實現(xiàn)所提出的并行頻繁項集挖掘算法。(4)針對DHP在第一次統(tǒng)計桶中項集數(shù)目時,會生成許多重復的候選項集,提出了基于Spark單節(jié)點的壓縮DHP算法,該算法用形象地數(shù)字形式代替重復的項集數(shù),并且在第一次掃描事務數(shù)據(jù)庫時就實施,通過實際的試驗證明,提出的這個壓縮改進算法在時間復雜度上明顯比沒有采用壓縮DHP的單節(jié)點DHP算法要低。(5)針對單節(jié)點只有一個計算單元的不足,研究了基于集群的Spar
7、k分布式計算框架。利用Spark多節(jié)點集群分布式結(jié)構(gòu)實現(xiàn)了分布式DHP算法和分布式FP-Growth算法,充分利用了集群的優(yōu)勢。在模擬數(shù)據(jù)和UCI數(shù)據(jù)集Pumsbstar上的實驗結(jié)果表明,基于集群的并行策略比基于單節(jié)點的并行環(huán)境具有更好的時間效率。關鍵詞:Spark平臺;關聯(lián)規(guī)則;頻繁項集;挖掘算法;DHP;FP-Growth;I四川師范大學士學位論文ResearchonParallelFrequentItemsetsMiningAlgorithmABSTRACT:Frequentitemsetsminingisusedtodiscoverfreq
8、uentpatternsindataitemsets.Itiswidelyusedincommodityassociati