資源描述:
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的決策支持》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、第5章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的決策支持基本原理知識發(fā)現(xiàn)與數(shù)據(jù)挖掘數(shù)據(jù)倉庫系統(tǒng)聯(lián)機分析處理數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的決策支持數(shù)據(jù)倉庫的支持系統(tǒng)5.1數(shù)據(jù)倉庫的基本原理數(shù)據(jù)倉庫的興起1.“數(shù)據(jù)太多,信息不足”的現(xiàn)狀2.異構環(huán)境的數(shù)據(jù)源據(jù)美國《幸?!冯s志所列的全球2000家大公司中已有90%將Internet網(wǎng)絡和數(shù)據(jù)倉庫這兩項技術列入企業(yè)計劃。數(shù)據(jù)倉庫是1995年開始盛行起來的。5.1.1數(shù)據(jù)倉庫的概念(1)W.H.Inmon在《建立數(shù)據(jù)倉庫》一書中,對數(shù)據(jù)倉庫的定義為:數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的,不同時間的數(shù)據(jù)集合,用于支持經(jīng)營管理中決策制定
2、過程。1、數(shù)據(jù)倉庫的概念(2)SAS軟件研究所定義:數(shù)據(jù)倉庫是一種管理技術,旨在通過通暢、合理、全面的信息管理,達到有效的決策支持。1、數(shù)據(jù)倉庫的概念傳統(tǒng)數(shù)據(jù)庫用于事務處理,也叫操作型處理,是指對數(shù)據(jù)庫聯(lián)機進行日常操作,即對一個或一組記錄的查詢和修改,主要為企業(yè)特定的應用服務的。用戶關心的是響應時間,數(shù)據(jù)的安全性和完整性。數(shù)據(jù)倉庫用于決策支持,也稱分析型處理,用于決策分析,它是建立決策支持系統(tǒng)(DSS)的基礎。操作型數(shù)據(jù)(DB數(shù)據(jù))與分析型數(shù)據(jù)(DW數(shù)據(jù))之間的差別為:2、數(shù)據(jù)倉庫特點(1)數(shù)據(jù)倉庫是面向主題的主題是數(shù)據(jù)歸類的標準,每一個主
3、題基本對應一個宏觀的分析領域。例如,銀行的數(shù)據(jù)倉庫的主題:客戶DW的客戶數(shù)據(jù)來源:從銀行儲蓄DB、信用卡DB、貸款DB等三個DB中抽取同一客戶的數(shù)據(jù)整理而成。在DW中分析客戶數(shù)據(jù),可決定是否繼續(xù)給予貸款。2、數(shù)據(jù)倉庫特點(2)數(shù)據(jù)倉庫是集成的數(shù)據(jù)進入數(shù)據(jù)倉庫之前,必須經(jīng)過加工與集成。對不同的數(shù)據(jù)來源進行統(tǒng)一數(shù)據(jù)結構和編碼。統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,如字段的同名異義,異名同義,單位不統(tǒng)一,字長不一致等。將原始數(shù)據(jù)結構做一個從面向應用到面向主題的大轉變。2、數(shù)據(jù)倉庫特點(3)數(shù)據(jù)倉庫是穩(wěn)定的數(shù)據(jù)倉庫中包括了大量的歷史數(shù)據(jù)。數(shù)據(jù)經(jīng)集成進入數(shù)據(jù)
4、倉庫后是極少或根本不更新的。(4)數(shù)據(jù)倉庫是隨時間變化的數(shù)據(jù)倉庫內的數(shù)據(jù)時限在5~10年,故數(shù)據(jù)的鍵碼包含時間項,標明數(shù)據(jù)的歷史時期,這適合DSS進行時間趨勢分析。而數(shù)據(jù)庫只包含當前數(shù)據(jù),即存取某一時間的正確的有效的數(shù)據(jù)。2、數(shù)據(jù)倉庫特點大型DW是一個TB(1000GB)級數(shù)據(jù)庫問題(一般為10GB級相當于一般數(shù)據(jù)庫100MB的100倍)需要一個巨大的硬件平臺需要一個并行的數(shù)據(jù)庫系統(tǒng)最好的數(shù)據(jù)倉庫是大的和昂貴的。面向主題穩(wěn)定隨時間變化集成特點數(shù)據(jù)倉庫特點近期基本數(shù)據(jù):是最近時期的業(yè)務數(shù)據(jù),是數(shù)據(jù)倉庫用戶最感興趣的部分,數(shù)據(jù)量大。歷史基本數(shù)據(jù)
5、:近期基本數(shù)據(jù)隨時間的推移,由數(shù)據(jù)倉庫的時間控制機制轉為歷史基本數(shù)據(jù)。輕度綜合數(shù)據(jù):是從近期基本數(shù)據(jù)中提取出的,這層數(shù)據(jù)是按時間段選取,或者按數(shù)據(jù)屬性(attributes)和內容(contents)進行綜合。高度綜合數(shù)據(jù)層:這一層的數(shù)據(jù)是在輕度綜合數(shù)據(jù)基礎上的再一次綜合,是一種準決策數(shù)據(jù)。5.1.2數(shù)據(jù)倉庫結構數(shù)據(jù)倉庫工作范圍和成本常常是巨大的。開發(fā)數(shù)據(jù)庫是代價很高、時間較長的大項目。提供更緊密集成的數(shù)據(jù)集市就應運產(chǎn)生。目前,全世界對數(shù)據(jù)倉庫總投資的一半以上均集中在數(shù)據(jù)集市上。5.1.3數(shù)據(jù)集市(DataMarts)數(shù)據(jù)集市(DataMa
6、rts)是一種更小、更集中的數(shù)據(jù)倉庫,為公司提供分析商業(yè)數(shù)據(jù)的一條廉價途徑。DataMarts是指具有特定應用的數(shù)據(jù)倉庫,主要針對某個應用或者具體部門級的應用,支持用戶獲得競爭優(yōu)勢或者找到進入新市場的具體解決方案。數(shù)據(jù)集市概念獨立數(shù)據(jù)集市(IndependentDataMart)從屬數(shù)據(jù)集市(DependentDataMart)數(shù)據(jù)集市的種類1、規(guī)模是小的2、特定的應用3、面向部門4、由業(yè)務部門定義,設計和開發(fā)5、由業(yè)務部門管理和維護6、快速實現(xiàn)7、購買較便宜8、投資快速回收9、工具集的緊密集成10、更詳細的、預先存在的數(shù)據(jù)倉庫的摘要子集1
7、1、可升級到完整的數(shù)據(jù)倉庫數(shù)據(jù)集市的特性元數(shù)據(jù)是數(shù)據(jù)倉庫的重要組成部分。元數(shù)據(jù)描述了數(shù)據(jù)倉庫的數(shù)據(jù)和環(huán)境,即關于數(shù)據(jù)的數(shù)據(jù)(metadata)元數(shù)據(jù)包括四種元數(shù)據(jù)。5.1.4元數(shù)據(jù)Himart元數(shù)據(jù)數(shù)據(jù)倉庫使用數(shù)據(jù)倉庫映射數(shù)據(jù)模型數(shù)據(jù)源它是現(xiàn)有的業(yè)務系統(tǒng)的數(shù)據(jù)源的描述信息。這類元數(shù)據(jù)是是對不同平臺上的數(shù)據(jù)源的物理結構和含義的描述。具體為:(1)數(shù)據(jù)源中所有物理數(shù)據(jù)結構,包括所有的數(shù)據(jù)項及數(shù)據(jù)類型。(2)所有數(shù)據(jù)項的業(yè)務定義。(3)每個數(shù)據(jù)項更新的頻率,以及由誰或那個過程更新的說明。(4)每個數(shù)據(jù)項的有效值。1、關于數(shù)據(jù)源的元數(shù)據(jù)數(shù)據(jù)倉庫的數(shù)
8、據(jù)模型是星型模型。通常企業(yè)數(shù)據(jù)模型被用作建立倉庫數(shù)據(jù)模型的起始點,再對模型加以修改和變換。2、關于數(shù)據(jù)模型的元數(shù)據(jù)這類元數(shù)據(jù)是數(shù)據(jù)源與數(shù)據(jù)倉庫數(shù)據(jù)間的映射。當數(shù)據(jù)源中的一個數(shù)據(jù)項