資源描述:
《dwms列存儲中執(zhí)行引擎的優(yōu)化與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、東華大學(xué)碩士學(xué)位論文DWMS列存儲中執(zhí)行引擎的優(yōu)化與實現(xiàn)姓名:張琦申請學(xué)位級別:碩士專業(yè):計算機軟件與理論指導(dǎo)教師:樂嘉錦2012-01DWMS列存儲中執(zhí)行引擎的優(yōu)化與實現(xiàn)摘要高效的查詢執(zhí)行效率是數(shù)據(jù)倉庫管理系統(tǒng)開發(fā)時最大的關(guān)注點。最近的研究表明,底層數(shù)據(jù)以列存儲的方式進行組織,能夠更好地適應(yīng)數(shù)據(jù)倉庫管理系統(tǒng)面向查詢的特征,能夠在執(zhí)行過程中避免抽取查詢所不需要的列值,引起多余的I/0開銷。除此之外,列存儲還擁有比行存儲更高的壓縮比。論文研究了數(shù)據(jù)倉庫技術(shù)、列存儲技術(shù),查詢執(zhí)行引擎中的核心模塊。結(jié)合數(shù)據(jù)倉庫列存儲的特征,對現(xiàn)有的查詢執(zhí)行引擎進行了結(jié)構(gòu)與策略兩個方面的優(yōu)化與實現(xiàn),其中結(jié)
2、構(gòu)方面包括傳遞塊結(jié)構(gòu)的優(yōu)化與實現(xiàn)以及操作結(jié)點的優(yōu)化與實現(xiàn),而在策略方面則設(shè)計并實現(xiàn)了基于操作結(jié)點相對位置的重用度估計模型以及基于該模型的重用緩沖區(qū)調(diào)度策略。本文研究內(nèi)容如下:1.論文首先分析了數(shù)據(jù)倉庫以及列存儲的特征,著重討論了MonetDB、C.Store及InfoBright的存儲方式與查詢執(zhí)行方式,并總結(jié)它們的特征與不足之處。2.然后,論文對列存儲查詢執(zhí)行引擎中的核心元素進行了詳細地介紹,其中包括查詢執(zhí)行的基本對象——物理執(zhí)行樹,物理執(zhí)行樹的構(gòu)成單元——操作結(jié)點、查詢執(zhí)行時數(shù)據(jù)在內(nèi)存中的組織形式以及能夠完成數(shù)據(jù)處理與傳遞的迭代器及其網(wǎng)絡(luò)。3.接著,論文對現(xiàn)有列存儲查詢執(zhí)行引擎
3、進行了結(jié)構(gòu)方面的優(yōu)化,其中包括對傳遞塊的結(jié)構(gòu)以及操作結(jié)點內(nèi)部結(jié)構(gòu)的優(yōu)化設(shè)計與實現(xiàn)。對傳遞塊結(jié)構(gòu)的優(yōu)化主要包括設(shè)計并實現(xiàn)了不僅能夠存儲rowid以及不同類型列值,還能夠通過位置關(guān)系實現(xiàn)低開銷快速元組重構(gòu)的傳遞塊結(jié)構(gòu)。而對操作結(jié)點內(nèi)部結(jié)構(gòu)的優(yōu)化主要包括11以工廠模式的方式進行操作結(jié)點開發(fā)從而減少重復(fù)判斷;2)利用數(shù)據(jù)有序的特性進行謂詞選擇預(yù)判以減少多余判斷;3、)改進哈希連接結(jié)點使其能夠靈活適應(yīng)事實表與維表的位置變換;4、)改進傳統(tǒng)排序連接操作使其能利用數(shù)據(jù)倉庫中數(shù)據(jù)有序以及事實表與維表連接的特征;5)設(shè)計并實現(xiàn)了同時適用于定長列值與變長列值的列值抽取方法;6)設(shè)計并實現(xiàn)了能夠靈活適應(yīng)
4、19種情況的打印操作結(jié)點;7)根據(jù)“將數(shù)組放入函數(shù)”的原則對執(zhí)行引擎進行了整體優(yōu)化。同時,論文對現(xiàn)有列存儲查詢執(zhí)行引擎還進行了策略方面的優(yōu)化設(shè)計與實現(xiàn),主要包括1)提出并實現(xiàn)了基于操作結(jié)點在物理執(zhí)行樹中相對位置的重用度估計模型;2)根據(jù)模型的估計結(jié)果設(shè)計并實現(xiàn)了重用緩沖區(qū)調(diào)度策略并對其進行了優(yōu)化。通過多個基于SsB數(shù)據(jù)集的實驗驗證了本文提出的優(yōu)化方法的有效性。最后,論文對數(shù)據(jù)倉庫管理系統(tǒng)列存儲查詢執(zhí)行引擎的實現(xiàn)與優(yōu)化現(xiàn)狀進行了總結(jié),并對下一步的研究工作進行了展望。關(guān)鍵詞:數(shù)據(jù)倉庫,列存儲,查詢執(zhí)行,優(yōu)化OPTIMIZATIONANDIMPLEMENTAIONFORDWMSCOLUM
5、N—STOREQUERYEXECUTIONENGINEABSTRACT4Ihee行jciencyofqueryexecutionisthemainconcemwhendeVelopingadatawarehouseman—agememsystem.Recentstudiesshow也atcolumn—storesystemcanadapttothequeryo^entedcha-raⅨeristicsofdatawarehousebetterthanrow.Store,becausec01umn.storesVstemwillonlyreadqueryrelateddata,aVo
6、idingunnecessaryI/Ocost.What’smore,column-storesystemhashighercompressratethanrow—storesystem.WeresearchedthetechIliquesofdatawarehouse,c01umn.store,a11dthecoremodulesofquen,executionengine,a11dthenoptimizedthes仃ucturesandstrategiesofcurremqueryexecmionenginebasedonthef色atureofcol呦n-store.Thes
7、tructuresincludethes仉lctureoftrallsfer_blocka11dopera-tornodes.Andmestrategiesincludethereusabilit),estimationmodelbaSeontherelatiVepositionofthegiVenoperatornodeinthephysicalexecution訂eeandreusebuf.ferschedulingalgorit}1111basedonthere