資源描述:
《最新數(shù)據(jù)倉庫實踐培訓PPT課件.ppt》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、數(shù)據(jù)倉庫實踐培訓什么是OLTP(聯(lián)機事務(wù)處理)?On-LineTransactionProcessing聯(lián)機事務(wù)處理系統(tǒng)(OLTP)也稱為面向交易的處理系統(tǒng),其基本特征是顧客的原始數(shù)據(jù)可以立即傳送到計算中心進行處理,并在很短的時間內(nèi)給出處理結(jié)果。這樣做的最大優(yōu)點是可以即時地處理輸入的數(shù)據(jù),及時地回答。也稱為實時系統(tǒng)(RealtimeSystem)。衡量聯(lián)機事務(wù)處理系統(tǒng)的一個重要性能指標是系統(tǒng)性能,具體體現(xiàn)為實時響應(yīng)時間(ResponseTime),即用戶在終端上送入數(shù)據(jù)之后,到計算機對這個請求給出答復
2、所需要的時間。 OLTP數(shù)據(jù)庫旨在使事務(wù)應(yīng)用程序僅寫入所需的數(shù)據(jù),以便盡快處理單個事務(wù)。支持大量并發(fā)用戶定期添加和修改數(shù)據(jù)。反映實時變化的對象狀態(tài),但不保存其歷史記錄。包含大量數(shù)據(jù),其中包括用于驗證事務(wù)的大量數(shù)據(jù)。一般具有復雜的數(shù)據(jù)結(jié)構(gòu)??梢赃M行優(yōu)化以對事務(wù)活動做出響應(yīng)。提供用于支持單位日常運營的技術(shù)基礎(chǔ)結(jié)構(gòu)。個別事務(wù)能夠很快地完成,并且只需訪問相對較少的數(shù)據(jù)。OLTP系統(tǒng)旨在處理同時輸入的成百上千的事務(wù)。OLTP系統(tǒng)中的數(shù)據(jù)主要被組織為支持一些事務(wù)性的數(shù)據(jù)操作,完成基礎(chǔ)業(yè)務(wù)數(shù)據(jù)的增、刪、改及簡單
3、的查詢操作,這些操作往往是基于關(guān)系數(shù)據(jù)庫的數(shù)據(jù)操作。包括的應(yīng)用系統(tǒng)小型的有如MIS、OA系統(tǒng)、電子商務(wù)交易系統(tǒng)、財務(wù)系統(tǒng)、eHR等;大型的如ERP、BOSS等。這類應(yīng)用系統(tǒng)對響應(yīng)時間要求比較高,強調(diào)的是密集數(shù)據(jù)更新處理的性能和系統(tǒng)的可靠性及效率。定義特征應(yīng)用領(lǐng)域什么是OLAP(聯(lián)機分析處理)?聯(lián)機分析處理(OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫之父E.F.Codd于1993年提出的。當時,Codd認為聯(lián)機事務(wù)處理(OLTP)已不能滿足終端用戶對數(shù)據(jù)庫復雜查詢分析的需要,SQL對大數(shù)據(jù)庫進行的簡單查詢也不能
4、滿足用戶分析的需求。用戶的決策分析需要對關(guān)系數(shù)據(jù)庫進行大量計算才能得到結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求,因此Codd提出了多維數(shù)據(jù)庫和多維分析的概念即OLAP。OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果,OLAP的技術(shù)核心就是“維度”這個概念?;径嗑S分析操作有鉆取(rollup和drilldown)、切片(slice)和切塊(dice)、以及旋轉(zhuǎn)(pivot)、drillacross、drillthrough等。鉆取是改變維的層次,變換
5、分析的粒度。它包括向上鉆?。╮ollup)和向下鉆取(drilldown)。切片和切塊是在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。旋轉(zhuǎn)是變換維的方向,即在表格中重新安排維的放置(例如行列互換)。ROLAP表示基于關(guān)系數(shù)據(jù)庫的OLAP實現(xiàn)(RelationalOLAP)。以關(guān)系數(shù)據(jù)庫為核心,以關(guān)系型結(jié)構(gòu)進行多維數(shù)據(jù)的表示和存儲MOLAP表示基于多維數(shù)據(jù)結(jié)構(gòu)組織的OLAP實現(xiàn)(MultidimensionalOLAP)MOLAP使用多維數(shù)組存儲數(shù)據(jù)。HOLAP表示基于混合數(shù)據(jù)組織的OLAP實現(xiàn)(
6、HybridOLAP)。如低層是關(guān)系型的,高層是多維矩陣型的。這種方式具有更好的靈活性。定義OLAP操作OLAP存儲數(shù)據(jù)倉庫建立“五步法”二、確定度量它們一般為數(shù)值型數(shù)據(jù)。我們或者將該數(shù)據(jù)匯總,或者將該數(shù)據(jù)取次數(shù)、獨立次數(shù)或取最大最小值等,這樣的數(shù)據(jù)稱為量度。量度是要統(tǒng)計的指標,必須事先選擇恰當,基于不同的量度可以進行復雜關(guān)鍵性能指標(KPI)等的設(shè)計和計算。在確定了主題以后,我們將考慮要分析的技術(shù)指標,諸如年銷售額之類數(shù)據(jù)倉庫建立“五步法”三、確定事實數(shù)據(jù)粒度例如:假設(shè)目前的數(shù)據(jù)最小記錄到秒,即數(shù)據(jù)
7、庫中記錄了每一秒的交易額。那么,如果我們可以確認,在將來的分析需求中,時間只需要精確到天就可以的話,我們就可以在ETL處理過程中,按天來匯總數(shù)據(jù),此時,數(shù)據(jù)倉庫中量度的粒度就是“天”;反過來,如果我們不能確認將來的分析需求在時間上是否需要精確到秒,那么,我們就需要遵循“最小粒度原則”,在數(shù)據(jù)倉庫的事實表中保留每一秒的數(shù)據(jù),以便日后對“秒”進行分析。在采用“最小粒度原則”的同時,我們不必擔心海量數(shù)據(jù)所帶來的匯總分析效率問題,因為在后續(xù)建立多維分析模型(CUBE)的時候,我們會對數(shù)據(jù)提前進行匯總,從而保障
8、產(chǎn)生分析結(jié)果的效率。關(guān)于建立多維分析模型(CUBE)的相關(guān)問題,我們將在下期欄目中予以闡述。在確定了量度之后,我們要考慮到該量度的匯總情況和不同維度下量度的聚合情況??紤]到量度的聚合程度不同,我們將采用“最小粒度原則”,即將量度的粒度設(shè)置到最小。數(shù)據(jù)倉庫建立“五步法”四、確定維度這里我們首先要確定維度的層次(Hierarchy)和級別(Level)(圖四:pic4.bmp)。如圖所示,我們在時間維度上,按照“年-季度-月”形成了一個層次,其中“年”、“季