關(guān)聯(lián)規(guī)則挖掘的并行化算法研究

關(guān)聯(lián)規(guī)則挖掘的并行化算法研究

ID:35045670

大?。?.83 MB

頁數(shù):62頁

時間:2019-03-17

關(guān)聯(lián)規(guī)則挖掘的并行化算法研究_第1頁
關(guān)聯(lián)規(guī)則挖掘的并行化算法研究_第2頁
關(guān)聯(lián)規(guī)則挖掘的并行化算法研究_第3頁
關(guān)聯(lián)規(guī)則挖掘的并行化算法研究_第4頁
關(guān)聯(lián)規(guī)則挖掘的并行化算法研究_第5頁
資源描述:

《關(guān)聯(lián)規(guī)則挖掘的并行化算法研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、學(xué)校代碼:10286blTST)-)‘八.產(chǎn)P3,分類號11:T.^’;—、一.L?、密級:公巧UDC:0041學(xué)號:31536’'".-,分.一1.,‘,雨甲朽麻-W..索魚雄大令舊工程碩±學(xué)位論文關(guān)聯(lián)規(guī)則挖掘的并行化算法研究學(xué)位論文形式:應(yīng)用研究)研究生姓名:劉魯勇導(dǎo)師姓名:姜浩李國鋒由譜舉仿類神I專業(yè)碩±學(xué)位學(xué)化授予單位東南大學(xué)2016年S月31日T賴飾誠名稱計算軌技術(shù)論義答辯日期_2016年__

2、g_祝究方向計算化應(yīng)用巧術(shù)學(xué)位授予日期__呂答姑牽員矣豐席徐立揉評閱人何潔月M2016年6月1日乘兩大聲碩±學(xué)位論文關(guān)聯(lián)規(guī)則挖掘的并行化算法研究專業(yè)名稱;計貸機巧乂研究生姓名:劉智勇導(dǎo)師姓名;姜浩李國鋒1PARALLELIZABLEALGORITHMSRESEARCHOFASSOCIATIONRULESMININGAThesisSubmhted化SoutheastUniversityFor

3、theAcademicDereeofMasterofgEnineeringgBYLIU-ZhionygSuervisedbpyAssociateProfessorJIANGHaoandSen-iorEnineerLIGuofenggSchoolofComputerScienceandEngineeringSoutheastUniversityMay2016東南大學(xué)學(xué)位論文獨徹性聲明本人聲明所呈交的學(xué)位論文是我個

4、人在導(dǎo)師指導(dǎo)下進行的研究工作及取得的研巧成果。盡我所知,除了文中特別加W標(biāo)注和致謝的地方外,論文中不包含其他人己經(jīng)發(fā)表或撰寫過的研巧成果,也不包含為獲得東南大學(xué)或其它教育機構(gòu)的學(xué)位或證書而使用過的材料一。與我同工作的同志對本研巧所做的任何貢獻均己在論文中作了明確的說明并表示了謝意。I堯曰期--.M:研巧生簽名:支茲1.0ik^3/東南大學(xué)學(xué)位論文使用授權(quán)唐明東南大學(xué)、、中國科學(xué)技術(shù)信息研巧所國家圖書館有權(quán)保留本人所送交學(xué)位論文的復(fù)印件和電子文檔、,可W采用影印縮

5、印或其他復(fù)制手段保存論文。本人一致電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相。除在保密期巧的保密論文外,允許論文被查閱和借閱,可^公布(包括;^電子信息形式刊登)論文的全部內(nèi)容或中、英文摘要等部分內(nèi)容。論文的公布(包括W電子信息形式刊登)授權(quán)東南大學(xué)研巧生院辦理。研究生簽名.:支,/嗎為導(dǎo)師簽名:圭俘曰期:《多/摘要摘要隨著信息技術(shù)的不斷發(fā)展,各行各業(yè)已經(jīng)積累了大量的數(shù)據(jù),為了將送些數(shù)據(jù)轉(zhuǎn)化為有用的知識,產(chǎn)生了數(shù)據(jù)挖掘技術(shù)。然而,傳統(tǒng)的串行化數(shù)據(jù)挖掘技術(shù)在面對海量

6、數(shù)據(jù)時效率難W讓人滿意。并行化技術(shù)近年來發(fā)展迅速,可W有效提升算法效率,是處理。海量數(shù)據(jù)的利器,因此,使用并行化技術(shù)提升數(shù)據(jù)挖掘算法效率成為時下的研究熱點一個重要分支關(guān)聯(lián)規(guī)則挖掘技術(shù)是數(shù)據(jù)挖掘的,主要研巧的是事務(wù)數(shù)據(jù)庫中有利用價值項之間的關(guān)系。頻繁項集挖掘是關(guān)聯(lián)規(guī)則挖掘中最重要的環(huán)節(jié),因此本文中的關(guān)聯(lián)規(guī)則挖掘算法其實也是針對如何挖掘頻繁模式的頻繁模式挖掘算法。關(guān)聯(lián)規(guī)則挖掘中的A-riori基本算法主要有多候選產(chǎn)生算法(,抽樣等),rowth,p,劃分模式增長算法(FPg

7、HMine,FPMax,Close+等)和垂直格式算法(Eclat,CHARM等)。本文旨在將部分關(guān)聯(lián)規(guī)則挖掘算法與并行計算技術(shù)相結(jié)合,介紹若干個關(guān)聯(lián)規(guī)則挖掘算法的并斤化方案。本文分別探討了基于CPU、GPU和分布式環(huán)境下的并行關(guān)聯(lián)規(guī)則挖掘算法,介紹了相PU-關(guān)的并行化技術(shù),并對本文中用到的兩個重要技術(shù)GCUDA并行計算框架和Maeduce-Spark并行計算框架做了詳細介紹pR。一FP-row也g算法是種基于內(nèi)存的頻繁模式挖掘算法。然而,當(dāng)數(shù)據(jù)集很大或者支FP-持度闊

8、值太小時,構(gòu)造基于主存的全局頻繁模式樹是不現(xiàn)實的。grow也算法擴展化-方案將大數(shù)據(jù)集切分成小數(shù)據(jù)集,然后通過在送些小數(shù)據(jù)集執(zhí)行FPgrowth算法來解決此問題FP-rowth。本文在分析研巧g算法擴展化方案的基礎(chǔ)上,采用并行投影的核也思一想,,介紹了種簡單分組算法。在考慮節(jié)點間負載均衡的基礎(chǔ)上對簡單分組算法改進,一介紹了種負載均衡的分組算法。基于上述分狙算法,實現(xiàn)了基于卻ark的并行一FP-rowS-FP-gth算法parkgrowth算法,該算法通過分沮算法

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。