資源描述:
《數(shù)據(jù)倉庫實踐培訓電子教案.ppt》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、數(shù)據(jù)倉庫實踐培訓什么是OLAP(聯(lián)機分析處理)?聯(lián)機分析處理(OLAP)的概念最早是由關系數(shù)據(jù)庫之父E.F.Codd于1993年提出的。當時,Codd認為聯(lián)機事務處理(OLTP)已不能滿足終端用戶對數(shù)據(jù)庫復雜查詢分析的需要,SQL對大數(shù)據(jù)庫進行的簡單查詢也不能滿足用戶分析的需求。用戶的決策分析需要對關系數(shù)據(jù)庫進行大量計算才能得到結果,而查詢的結果并不能滿足決策者提出的需求,因此Codd提出了多維數(shù)據(jù)庫和多維分析的概念即OLAP。OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應用,支持復雜的分析操作,側重決策支持,并且
2、提供直觀易懂的查詢結果,OLAP的技術核心就是“維度”這個概念?;径嗑S分析操作有鉆取(rollup和drilldown)、切片(slice)和切塊(dice)、以及旋轉(pivot)、drillacross、drillthrough等。鉆取是改變維的層次,變換分析的粒度。它包括向上鉆?。╮ollup)和向下鉆?。╠rilldown)。切片和切塊是在一部分維上選定值后,關心度量數(shù)據(jù)在剩余維上的分布。旋轉是變換維的方向,即在表格中重新安排維的放置(例如行列互換)。ROLAP表示基于關系數(shù)據(jù)庫的OLAP
3、實現(xiàn)(RelationalOLAP)。以關系數(shù)據(jù)庫為核心,以關系型結構進行多維數(shù)據(jù)的表示和存儲MOLAP表示基于多維數(shù)據(jù)結構組織的OLAP實現(xiàn)(MultidimensionalOLAP)MOLAP使用多維數(shù)組存儲數(shù)據(jù)。HOLAP表示基于混合數(shù)據(jù)組織的OLAP實現(xiàn)(HybridOLAP)。如低層是關系型的,高層是多維矩陣型的。這種方式具有更好的靈活性。定義OLAP操作OLAP存儲數(shù)據(jù)倉庫架構數(shù)據(jù)倉庫(DataWarehouseDW)是為了便于多維分析和多角度展現(xiàn)而將數(shù)據(jù)按特定的模式進行存儲所建立起來的
4、關系型數(shù)據(jù)庫,它的數(shù)據(jù)基于OLTP源系統(tǒng)。數(shù)據(jù)倉庫中的數(shù)據(jù)是細節(jié)的、集成的、面向主題的,以OLAP系統(tǒng)的分析需求為目的。星型模型與雪花模型數(shù)據(jù)倉庫的架構模型包括了星型架構與雪花型架構兩種模式。如圖所示,星型架構的中間為事實表,四周為維度表,類似星星;而相比較而言,雪花型架構的中間為事實表,兩邊的維度表可以再有其關聯(lián)子表,從而表達了清晰的維度層次關系。從OLAP系統(tǒng)的分析需求和ETL的處理效率兩方面來考慮:星型結構聚合快,分析效率高;而雪花型結構明確,便于與OLTP系統(tǒng)交互。因此,在實際項目中,我們將
5、綜合運用星型架構與雪花型架構來設計數(shù)據(jù)倉庫。數(shù)據(jù)倉庫建立“五步法”一、確定主題例如:我們希望分析某年某月某一地區(qū)的啤酒銷售情況,這就是一個主題。主題要體現(xiàn)出某一方面的各分析角度(維度)和統(tǒng)計數(shù)值型數(shù)據(jù)(量度)之間的關系,確定主題時要綜合考慮。我們可以形象的將一個主題想象為一顆星星:統(tǒng)計數(shù)值型數(shù)據(jù)(量度)存在于星星中間的事實表;分析角度(維度)是星星的各個角;我們將通過維度的組合,來考察量度。那么,“某年某月某一地區(qū)的啤酒銷售情況”這樣一個主題,就要求我們通過時間和地區(qū)兩個維度的組合,來考察銷售情況這
6、個量度。從而,不同的主題來源于數(shù)據(jù)倉庫中的不同子集,我們可以稱之為數(shù)據(jù)集市。數(shù)據(jù)集市體現(xiàn)了數(shù)據(jù)倉庫某一方面的信息,多個數(shù)據(jù)集市構成了數(shù)據(jù)倉庫。即確定數(shù)據(jù)分析或前端展現(xiàn)的主題度量維度維度維度維度維度分析主題:事實表數(shù)據(jù)倉庫建立“五步法”二、確定度量它們一般為數(shù)值型數(shù)據(jù)。我們或者將該數(shù)據(jù)匯總,或者將該數(shù)據(jù)取次數(shù)、獨立次數(shù)或取最大最小值等,這樣的數(shù)據(jù)稱為量度。量度是要統(tǒng)計的指標,必須事先選擇恰當,基于不同的量度可以進行復雜關鍵性能指標(KPI)等的設計和計算。在確定了主題以后,我們將考慮要分析的技術指標,
7、諸如年銷售額之類數(shù)據(jù)倉庫建立“五步法”三、確定事實數(shù)據(jù)粒度例如:假設目前的數(shù)據(jù)最小記錄到秒,即數(shù)據(jù)庫中記錄了每一秒的交易額。那么,如果我們可以確認,在將來的分析需求中,時間只需要精確到天就可以的話,我們就可以在ETL處理過程中,按天來匯總數(shù)據(jù),此時,數(shù)據(jù)倉庫中量度的粒度就是“天”;反過來,如果我們不能確認將來的分析需求在時間上是否需要精確到秒,那么,我們就需要遵循“最小粒度原則”,在數(shù)據(jù)倉庫的事實表中保留每一秒的數(shù)據(jù),以便日后對“秒”進行分析。在采用“最小粒度原則”的同時,我們不必擔心海量數(shù)據(jù)所帶來
8、的匯總分析效率問題,因為在后續(xù)建立多維分析模型(CUBE)的時候,我們會對數(shù)據(jù)提前進行匯總,從而保障產生分析結果的效率。關于建立多維分析模型(CUBE)的相關問題,我們將在下期欄目中予以闡述。在確定了量度之后,我們要考慮到該量度的匯總情況和不同維度下量度的聚合情況??紤]到量度的聚合程度不同,我們將采用“最小粒度原則”,即將量度的粒度設置到最小。數(shù)據(jù)倉庫建立“五步法”四、確定維度這里我們首先要確定維度的層次(Hierarchy)和級別(Level)(圖四:pic4.bm