基于yarn和spark框架的數(shù)據(jù)挖掘算法并行研究

基于yarn和spark框架的數(shù)據(jù)挖掘算法并行研究

ID:35059262

大?。?.71 MB

頁(yè)數(shù):55頁(yè)

時(shí)間:2019-03-17

基于yarn和spark框架的數(shù)據(jù)挖掘算法并行研究_第1頁(yè)
基于yarn和spark框架的數(shù)據(jù)挖掘算法并行研究_第2頁(yè)
基于yarn和spark框架的數(shù)據(jù)挖掘算法并行研究_第3頁(yè)
基于yarn和spark框架的數(shù)據(jù)挖掘算法并行研究_第4頁(yè)
基于yarn和spark框架的數(shù)據(jù)挖掘算法并行研究_第5頁(yè)
資源描述:

《基于yarn和spark框架的數(shù)據(jù)挖掘算法并行研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、碩士學(xué)位論文基于YARN和Spark框架的數(shù)據(jù)挖掘算法并行研究學(xué)科專業(yè)計(jì)算機(jī)技術(shù)學(xué)位類型□科學(xué)學(xué)位□√專業(yè)學(xué)位研究生姓名陳名輝導(dǎo)師姓名、職稱王志剛教授論文編號(hào)S1601846湖南師范大學(xué)學(xué)位評(píng)定委員會(huì)辦公室二零一六年三月分類號(hào)密級(jí)學(xué)校代碼10542學(xué)號(hào)201470100640基于YARN和Spark框架的數(shù)據(jù)挖掘算法并行研究ParallelResearchonDataMiningAlgorithmbasedonYARNandSparkFramework研究生姓名陳名輝指導(dǎo)教師姓名、職稱王志剛教授學(xué)科專業(yè)計(jì)算機(jī)技術(shù)研究方向數(shù)據(jù)挖掘湖南師范大學(xué)學(xué)位評(píng)定委員會(huì)辦

2、公室二零一六年三月湖南師巧大學(xué)學(xué)位論文原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的成果。除文中氏經(jīng)注明引用的內(nèi)容外,本論文不含任何其他個(gè)人或集體己經(jīng)發(fā)表或撰寫(xiě)過(guò)的作品成果。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體,均己在文中W明確方式標(biāo)明。本人完全意識(shí)到本聲明的法律結(jié)果由本人承擔(dān)。-學(xué)位論文作者簽名弁<乂(^6:巧、口^令樂(lè)年月咬日湖南師范大學(xué)學(xué)位論文版權(quán)使用授權(quán)書(shū)本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,研究生在校攻讀學(xué)位期間論文工作的知識(shí)產(chǎn)權(quán)單位屬湖南師范大學(xué)

3、。同意學(xué)校保留并向國(guó)家有關(guān)部口或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閱和借閱。本人授權(quán)湖南師范大學(xué)可將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,可W采用影印、緒印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。作者簽名:日期:峰《巧(Tb?導(dǎo)師簽名;:日謁:^月^若摘要隨著科學(xué)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)應(yīng)用的深入以及個(gè)人電腦、平板、智能手機(jī)、智能家居等終端設(shè)備的普及,全世界數(shù)據(jù)總量以飛快的速度遞增,我們已經(jīng)進(jìn)入了一個(gè)大數(shù)據(jù)的時(shí)代。面對(duì)如此大規(guī)模的海量數(shù)據(jù),傳統(tǒng)的計(jì)算模型(單機(jī)模型和傳統(tǒng)并行計(jì)算模型)已經(jīng)很難應(yīng)對(duì),應(yīng)用而生的分布式

4、計(jì)算平臺(tái)為海量數(shù)據(jù)的處理提供了一種新的方式。分布式計(jì)算平臺(tái)與傳統(tǒng)的并行計(jì)算模型相比,它由底層來(lái)完成分割數(shù)據(jù)、任務(wù)分配、并行處理和容錯(cuò)等功能,具有易于擴(kuò)展、學(xué)習(xí)、使用和部署等特點(diǎn),是一種簡(jiǎn)潔抽象的并行編程模型。用戶只需要集中注意力解決自己需要的并行計(jì)算的任務(wù),而不需要關(guān)心細(xì)節(jié)的并行實(shí)現(xiàn),這大大簡(jiǎn)化了并行程序的設(shè)計(jì)。將該模型運(yùn)用在算法并行化設(shè)計(jì)中,對(duì)于提升算法的執(zhí)行效率有著較高的現(xiàn)實(shí)應(yīng)用價(jià)值。本文利用該模型對(duì)聚類分析中DBSCAN算法進(jìn)行并行化研究,結(jié)果如下:(1)提出了一種基于網(wǎng)格單元的數(shù)據(jù)分網(wǎng)格算法。該算法將每個(gè)分區(qū)上的數(shù)據(jù)集劃分成以DBSCAN的Eps半

5、徑為邊長(zhǎng)的單元格數(shù)據(jù)塊,這將極快的加速數(shù)據(jù)集中數(shù)據(jù)對(duì)象查找Eps鄰域的速度,這樣就不需要在整個(gè)分區(qū)的所有數(shù)據(jù)集中查找某個(gè)數(shù)據(jù)對(duì)象的Eps鄰域,將查找Eps鄰域的范圍縮小到數(shù)據(jù)對(duì)象的八個(gè)相鄰單元格之內(nèi)。實(shí)驗(yàn)結(jié)果證明這種算法提高了聚類速度,具有較好的加速比和擴(kuò)展率,在聚類速度上比傳統(tǒng)算法更快。(2)提出了一種新的分區(qū)聚類合并方法。在充分利用了分布式I計(jì)算平臺(tái)的優(yōu)點(diǎn)的同時(shí),對(duì)數(shù)據(jù)分區(qū)聚類后所帶來(lái)的聚類合并問(wèn)題進(jìn)行了優(yōu)化,本文采用對(duì)各分區(qū)邊界點(diǎn)再次聚類的方式,比較邊界點(diǎn)再次聚類的結(jié)果和原聚類結(jié)果的區(qū)別來(lái)合并聚類。此方法只需對(duì)邊界點(diǎn)進(jìn)行重新聚類運(yùn)算就能合并各個(gè)分區(qū)上

6、的簇,積大的提高了各分區(qū)聚類合并的速度。關(guān)鍵詞:分布式計(jì)算,DBSCAN,Spark,YARN,TachyonIIABSTRACTWiththerapiddevelopmentofscienceandtechnology,thedepthofInternetapplicationsandthepopularizationofpersonalcomputers,tablets,smartphones,smarthomeandotherterminalequipment,theamountofworldwidedataisincreasingatarapidr

7、ate,wehaveenteredaneraofBigData.Facedwithsuchalarge-scalemassdata,thetraditionalmodel(stand-alonemodelandthetraditionalparallelcomputingmodel)hasbeendifficulttodealwithit,anddistributedcomputingplatformemergedattherightmomentprovidesanewwayformassivedataprocessing.Comparedwiththet

8、raditionalmodelofparallelcomputat

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。