模集群上基于預(yù)散列的連接處理和優(yōu)化

模集群上基于預(yù)散列的連接處理和優(yōu)化

ID:34103794

大?。?46.94 KB

頁數(shù):9頁

時間:2019-03-03

模集群上基于預(yù)散列的連接處理和優(yōu)化_第1頁
模集群上基于預(yù)散列的連接處理和優(yōu)化_第2頁
模集群上基于預(yù)散列的連接處理和優(yōu)化_第3頁
模集群上基于預(yù)散列的連接處理和優(yōu)化_第4頁
模集群上基于預(yù)散列的連接處理和優(yōu)化_第5頁
資源描述:

《模集群上基于預(yù)散列的連接處理和優(yōu)化》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、萬方數(shù)據(jù)計算機研究與發(fā)展ISSN1000—1239/CN11一I777/TPJournalofComputerResearchandDevelopment47(Suppl.):146—153.2010大規(guī)模集群上基于預(yù)散列的連接處理和優(yōu)化常洞霞錢衛(wèi)寧周傲英(華東師范大學軟件學院上海200062)(wnqian@sei.ecnu.edu.cn)JoinProcessingandOptimizingBasedonPre—HashoverLargeClustersChangDongxia,QJanWeining,andZhouAoying(SoftⅡ)areEngineeringInsti

2、tute,EastChinaNormalUniversity,Shanghai200062)AbstractWiththeincreasingofdatasizeinmodernapplicationsandtheemergenceofcomplicatedprocessingneeds,thetraditionalcentralizedanddistributeddataprocessingtechnologiescan’tworkwell.Inthissituation,thelargescaleclustershavebeenusedwidelyindata-intensive

3、applicationsbecauseoftheirscalability,highavailabilityandfaulttolerance.Inthispaper,wehavethreecontributionstojoinprocessingandoptimizingoverlargeclusters.Firstly,weanalyzethebottleneckofHashjoinprocessingbasedonMap/Reduceframework.Secondly,weproposeamethodwhichusespre-HashtooptimizejoininMap/R

4、educe.Thirdly,weresearchtheoptimizationtechnologyofstarjoin.Andfromthecostmodelestimationandexperiments,ourmethodscanimprovethejoinefficiencyoverlargeclusterssignificantly.KeywordsMapReduce;Hashjoin;starjoin;index;optimize摘要隨著現(xiàn)代應(yīng)用中數(shù)據(jù)規(guī)模的迅速增長,以及復(fù)雜處理要求的出現(xiàn),傳統(tǒng)的集中式和分布式數(shù)據(jù)處理技術(shù)已經(jīng)不能滿足需要;而大規(guī)模集群由于具有可伸縮性、高可

5、用性、容錯性的優(yōu)勢,逐漸為數(shù)據(jù)密集型應(yīng)用所廣泛使用.這里針對大規(guī)模集群上數(shù)據(jù)連接(join)操作的效率問題:1)分析了基于Map/Reduce框架的連接操作實現(xiàn)的效率瓶頸;2)提出了一種采用預(yù)散列(hash)的連接操作實現(xiàn)技術(shù);3)研究了針對星型連接的優(yōu)化技術(shù).代價模型分析與實驗顯示,此處提出的方法能夠有效提高連接操作的效率.關(guān)鍵詞MapReduce;散列連接;星型連接;索引;優(yōu)化中圖法分類號TP311.13;TP316.4在web應(yīng)用、科學計算和大型企業(yè)商務(wù)智能等應(yīng)用中,“大數(shù)據(jù)”(bigdata)問題日益嚴重,即數(shù)據(jù)規(guī)模迅速增加、處理要求越來越多、越來越復(fù)雜.數(shù)據(jù)規(guī)模和數(shù)據(jù)處理復(fù)

6、雜性的發(fā)展速度甚至超過了硬件處理能力的發(fā)展速度.因此,傳統(tǒng)的集中式或小規(guī)模分布式系統(tǒng)上的數(shù)據(jù)管理和處理技術(shù),由于在可伸縮性、高可用性和容錯性等方面的限制,已經(jīng)無法適應(yīng)數(shù)據(jù)密集型計算應(yīng)用的環(huán)境.同時,大規(guī)模集群收疆日期;2010一06—25基金項目:國家自然科學基金項目(60833003)通信作者:錢衛(wèi)寧(wnqian@sei.ecnu.edu.cn)(cluster)通過冗余和并行處理,在性能和代價等方面顯示出明顯的優(yōu)勢.一些重要的互聯(lián)網(wǎng)計算平臺都采用或者提供大規(guī)模集群.這其中包括Google的GoogleFileSystemLll和Map/Reduce計算模型[z]、Amazon的

7、EC2計算平臺[31和S3存儲平臺[41等.本文研究大規(guī)模集群上,數(shù)據(jù)連接操作的實現(xiàn)與優(yōu)化技術(shù).由于目前被廣泛接受和使用的Map/Reduce框架為了簡化并行程序設(shè)計,并不支持內(nèi)嵌萬方數(shù)據(jù)常洞霞等:大規(guī)模集群上基于預(yù)散列的連接處理和優(yōu)化147的合并(merge)和連接操作,因此如何提供高效的連接效率就成為大規(guī)模集群上數(shù)據(jù)處理的一個重要問題.本文針對這一問題,研究連接操作的實現(xiàn)技術(shù),以及數(shù)據(jù)分析中常用的星型連接(star—join)優(yōu)化技術(shù).1.相關(guān)工作Ma

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。