資源描述:
《《數(shù)據(jù)倉庫基礎》PPT課件》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在教育資源-天天文庫。
1、數(shù)據(jù)倉庫基礎主題商業(yè)智能技術數(shù)據(jù)倉庫與多維模型設計數(shù)據(jù)倉庫設計多維模型商業(yè)智能的體系商業(yè)智能技術體系(BI——BusinessIntelligence)在線分析處理技術(OLAP:OnlineAnalyticalProcessing)數(shù)據(jù)挖掘技術(DataMining)數(shù)據(jù)倉庫技術(DataWarehousing)數(shù)據(jù)整合集成各系統(tǒng)的歷史數(shù)據(jù),建立面向主題的企業(yè)數(shù)據(jù)中心數(shù)據(jù)分析靈活、動態(tài)、快速的多維分析、隨機查詢、即席報表知識發(fā)現(xiàn)通過數(shù)學模型發(fā)現(xiàn)隱藏的、潛在的規(guī)律,以輔助決策更加全面、深入的分析形成知識庫
2、指導決策、再分析數(shù)據(jù)倉庫定義數(shù)據(jù)倉庫的概念數(shù)據(jù)倉庫就是面向主題的、集成的、不同時間的、穩(wěn)定的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程。什么是數(shù)據(jù)倉庫??數(shù)據(jù)倉庫的特點面向主題集成性—企業(yè)數(shù)據(jù)框架歷史性、穩(wěn)定性數(shù)據(jù)倉庫與業(yè)務數(shù)據(jù)庫的比較什么是聯(lián)機分析處理(OLAP)?OLAP的定義OLAP是使分析人員、管理人員能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的、并真實反映數(shù)據(jù)維特性的信息,進行快速、一致、交互地訪問,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術。OLAP的特征OLAP的核心——指標
3、、維OLAP的目標——多維分析OLAP的特點靈活、動態(tài)多角度、多層次的視角快速OLAP的基本功能商業(yè)語義層的定義上鉆和下鉆(RolluporDrilldown)切片和切塊(SliceandDice)旋轉(zhuǎn)(Pivoting)強大的復雜計算能力時間智能豐富的數(shù)據(jù)展現(xiàn)方式OLAP功能示意按機構鉆取濟南地區(qū)維時間維行業(yè)維青島數(shù)據(jù)挖掘技術(DataMining)DM的定義數(shù)據(jù)挖掘(DataMining)是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的以及最終可理解模式的高級處理過程。也就是說,從大量的、不完全的、有噪聲
4、的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。DM的特點涉及數(shù)據(jù)庫、統(tǒng)計分析、人工智能多種技術預測和驗證功能特征和規(guī)律描述主題商業(yè)智能技術數(shù)據(jù)倉庫與多維模型數(shù)據(jù)倉庫設計多維模型設計數(shù)據(jù)倉庫與多維模型概述多維模型與數(shù)據(jù)倉庫多維模型通過組織和匯總數(shù)據(jù)倉庫中的數(shù)據(jù)而為分析查詢提供一種多維的表現(xiàn)方式。數(shù)據(jù)倉庫是多維數(shù)據(jù)集的數(shù)據(jù)基礎,其結構的設計會影響多維數(shù)模型的設計和建立的難易程度。主題商業(yè)智能技術數(shù)據(jù)倉庫與多維模型數(shù)據(jù)倉庫設計多維模型設計數(shù)據(jù)倉庫設計原則(一)模
5、型構架盡量使用星型架構,使用雪花架構的目的是使事實表第一級的維表數(shù)量達到最小。設計方法將常識規(guī)范化方法應用于維度表設計。例如,不相關的數(shù)據(jù)不應組合到單一維度表中,而且在多個維度表中數(shù)據(jù)不應重復。維表設計設計維表應包含需要分析的有關事實的有意義信息,例如產(chǎn)品的顏色和大小。事實表設計不要在事實數(shù)據(jù)表中進行過度的匯總,以保證在必要時可以進行所需粒度的數(shù)據(jù)訪問。數(shù)據(jù)倉庫設計原則(二)數(shù)據(jù)存儲方式在必要時可以把要在同一個多維數(shù)據(jù)集中使用的數(shù)據(jù)存儲在多個事實數(shù)據(jù)表中,條件是這些事實數(shù)據(jù)表必須具有相同的結構。索引在關鍵
6、字段上創(chuàng)建索引,以提高處理多維數(shù)據(jù)集的性能。特殊要求根據(jù)所選的OLAP引擎特殊需要,確保數(shù)據(jù)諸如完整性等的特殊要求。增量更新必須考慮數(shù)據(jù)增量和更新的策略,以保證多維數(shù)據(jù)集中有所需的數(shù)據(jù)。數(shù)據(jù)倉庫基本元素(一)關系型數(shù)據(jù)庫關系數(shù)據(jù)庫是建立數(shù)據(jù)倉庫的基礎引擎平臺,它為數(shù)據(jù)倉庫提供臨時存儲、清理和轉(zhuǎn)換傳入的數(shù)據(jù),容納和管理數(shù)據(jù)倉庫中的大量數(shù)據(jù),并支持數(shù)據(jù)倉庫的功能。數(shù)據(jù)源數(shù)據(jù)源是數(shù)據(jù)倉庫用于分析的數(shù)據(jù)來源,是建立數(shù)據(jù)倉庫時必須聚集和合并的不同來源的數(shù)據(jù)。數(shù)據(jù)倉庫基本元素(二)事實表事實表是用于存放經(jīng)過匯總的歷史
7、信息,也就是事實數(shù)據(jù)的表,是星型架構或雪花型架構的中心。每個數(shù)據(jù)倉庫或數(shù)據(jù)集市都包括一個或多個事實表。事實表一般不包含描述性信息,具有可以聚合的特點。維表維度表是存儲描述事實表中事實數(shù)據(jù)特性的表,每個維表都是獨立于其它維表的,并且包含了事實特性的層次結構信息。索引與在任何關系數(shù)據(jù)庫中一樣,索引對提高數(shù)據(jù)倉庫性能和處理多維數(shù)據(jù)集性能的起著重大作用,是數(shù)據(jù)倉庫中不可或缺的部分。數(shù)據(jù)倉庫組織形式(一)星型模型星型模型是由單個事實數(shù)據(jù)表和一些維度表組成的構架模型。在這種模型中每個維度表均聯(lián)接到事實數(shù)據(jù)表上。事實表
8、稅務機關維表行業(yè)維表經(jīng)濟性質(zhì)維表時間維表稅種維表數(shù)據(jù)倉庫組織形式(二)雪花型模型雪花型架構比星型模型增加了次要維表,有一個或多個維表是聯(lián)接到其它維表上,而非事實數(shù)據(jù)表上。事實表機構維表行業(yè)維表地市維表時間維表省份維表地區(qū)維數(shù)據(jù)倉庫設計(一)——事實表事實表設計每個事實數(shù)據(jù)表都應該由兩個部分組成,一個由多個部分組成的索引和一些由這些索引所描述的數(shù)據(jù)。索引部分索引部分包含著與描述事實數(shù)據(jù)特征的維表相關聯(lián)的外鍵信息。數(shù)據(jù)部分數(shù)據(jù)部分