資源描述:
《《數(shù)據(jù)倉庫》PPT課件》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、數(shù)據(jù)倉庫DataWarehouse事務(wù)型處理事務(wù)型處理:即操作型處理,是指對數(shù)據(jù)庫的聯(lián)機(jī)操作處理OLTP。事務(wù)型處理是用來協(xié)助企業(yè)對響應(yīng)事件或事務(wù)的日常商務(wù)活動進(jìn)行處理。它是事件驅(qū)動、面向應(yīng)用的,通常是對一個(gè)或一組記錄的增、刪、改以及簡單查詢等(大量、簡單、重復(fù)和例行性)。在事務(wù)型處理環(huán)境中,數(shù)據(jù)庫要求能支持日常事務(wù)中的大量事務(wù),用戶對數(shù)據(jù)的存取操作頻率高而每次操作處理的時(shí)間短。2分析型處理分析型處理:用于管理人員的決策分析,例如DSS、EIS和多維分析等。它幫助決策者分析數(shù)據(jù)以察看趨向、判斷問題。分析型處理經(jīng)常要訪問大量的歷史數(shù)據(jù),支持復(fù)雜的查詢。分析型處理過程中經(jīng)常用到
2、外部數(shù)據(jù),這部分?jǐn)?shù)據(jù)不是由事務(wù)型處理系統(tǒng)產(chǎn)生的,而是來自于其他外部數(shù)據(jù)源。3事務(wù)型處理數(shù)據(jù)和分析型處理數(shù)據(jù)的區(qū)別特性O(shè)LTPOLAP特征面向用戶功能DB設(shè)計(jì)數(shù)據(jù)匯總視圖工作單位存取關(guān)注操作訪問記錄數(shù)用戶數(shù)DB規(guī)模優(yōu)先度量操作處理事務(wù)辦事員、DBA、數(shù)據(jù)庫專業(yè)人員日常操作基于E-R,面向應(yīng)用當(dāng)前的;確保最新原始的,高度詳細(xì)詳細(xì),一般關(guān)系短的、簡單事務(wù)讀/寫數(shù)據(jù)進(jìn)入主關(guān)鍵字上索引/散列數(shù)十個(gè)數(shù)千100MB到GB高性能,高可用性事務(wù)吞吐量信息處理分析知識工人(如經(jīng)理、主管、分析員)長期信息需求,決策支持星形/雪花,面向主題歷史的;跨時(shí)間維護(hù)匯總的,統(tǒng)一的匯總的,多維的復(fù)雜查詢大多
3、為讀信息輸出大量掃描數(shù)百萬數(shù)百100GB到TB高靈活性,端點(diǎn)用戶自治查詢吞吐量,響應(yīng)時(shí)間4數(shù)據(jù)庫系統(tǒng)的局限性數(shù)據(jù)庫適于存儲高度結(jié)構(gòu)化的日常事務(wù)細(xì)節(jié)數(shù)據(jù),而決策型數(shù)據(jù)多為歷史性、匯總性或計(jì)算性數(shù)據(jù),多表現(xiàn)為靜態(tài)數(shù)據(jù),不需直接更新,但可周期性刷新。決策分析型數(shù)據(jù)是多維性,分析內(nèi)容復(fù)雜。在事務(wù)處理環(huán)境中,決策者可能并不關(guān)心具體的細(xì)節(jié)信息,在決策分析環(huán)境中,如果這些細(xì)節(jié)數(shù)據(jù)量太大一方面會嚴(yán)重影響分析效率,另一方面這些細(xì)節(jié)數(shù)據(jù)會分散決策者的注意力。DB2OracleSQLServerExcelspreadsheetXMLdocumentInternetSSLclientapplica
4、tionsBrowsersDatamanagementlayerApplicationlayerWebservers5數(shù)據(jù)庫系統(tǒng)的局限性(續(xù))當(dāng)事務(wù)型處理環(huán)境和分析型處理環(huán)境在同一個(gè)數(shù)據(jù)庫系統(tǒng)中,事務(wù)型處理對數(shù)據(jù)的存取操作頻率高,操作處理的時(shí)間短,而分析型處理可能需要連續(xù)運(yùn)行幾個(gè)小時(shí),從而消耗大量的系統(tǒng)資源。決策型分析數(shù)據(jù)的數(shù)據(jù)量大,這些數(shù)據(jù)有來自企業(yè)內(nèi)部的,也有來自企業(yè)外部的。來自企業(yè)外部的數(shù)據(jù)又可能來自不同的數(shù)據(jù)庫系統(tǒng),在分析時(shí)如果直接對這些數(shù)據(jù)操作會造成分析的混亂。對于外部數(shù)據(jù)中的一些非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)庫系統(tǒng)常常是無能為力。6多庫系統(tǒng)的限制可用性:源站點(diǎn)或通信網(wǎng)絡(luò)故障
5、將導(dǎo)致系統(tǒng)癱瘓,源站點(diǎn)不能通過網(wǎng)絡(luò)在線聯(lián)入多庫系統(tǒng)。響應(yīng)速度:全局查詢多級轉(zhuǎn)換和通信傳輸,延遲和低層效率影響響應(yīng)速度。系統(tǒng)性能:總體性能取決于源站點(diǎn)中性能最低的系統(tǒng),影響系統(tǒng)性能的發(fā)揮;系統(tǒng)開銷:每次查詢要啟動多個(gè)局部系統(tǒng),通信和運(yùn)行開銷大。7實(shí)施數(shù)據(jù)倉庫的條件數(shù)據(jù)積累已達(dá)到一定規(guī)模面臨激烈的市場競爭在IT方面的資金能得到保障8數(shù)據(jù)倉庫的發(fā)展自從NCR公司為WalMart建立了第一個(gè)數(shù)據(jù)倉庫。1996年,加拿大的IDC公司調(diào)查了62家實(shí)現(xiàn)了數(shù)據(jù)倉庫的歐美企業(yè),結(jié)果表明:數(shù)據(jù)倉庫為企業(yè)提供了巨大的收益。早期的數(shù)據(jù)倉庫大都采用當(dāng)時(shí)流行的客戶/服務(wù)器結(jié)構(gòu)。近年來分布式對象技術(shù)飛速
6、發(fā)展,整個(gè)數(shù)據(jù)倉庫體系結(jié)構(gòu)從功能上劃分為若干個(gè)分布式對象,這些分布式對象不僅可以直接用于建立數(shù)據(jù)倉庫,還可以在應(yīng)用程序中向用戶提供調(diào)用的接口。IBM的實(shí)驗(yàn)室在數(shù)據(jù)倉庫方面已經(jīng)進(jìn)行了10多年的研究,并將研究成果發(fā)展成為商用產(chǎn)品。其他數(shù)據(jù)庫廠商在數(shù)據(jù)倉庫領(lǐng)域也紛紛提出了各自的解決方案。9數(shù)據(jù)倉庫(DataWarehouse)數(shù)據(jù)倉庫用來保存從多個(gè)數(shù)據(jù)庫或其它信息源選取的數(shù)據(jù),并為上層應(yīng)用提供統(tǒng)一用戶接口,完成數(shù)據(jù)查詢和分析。支持整個(gè)企業(yè)范圍的主要業(yè)務(wù)來建立的,主要特點(diǎn)是,包含大量面向整個(gè)企業(yè)的綜合信息及導(dǎo)出信息。數(shù)據(jù)倉庫是作為DSS服務(wù)基礎(chǔ)的分析型DB,用來存放大容量的只讀數(shù)據(jù)
7、,為制定決策提供所需要的信息。數(shù)據(jù)倉庫是與操作型系統(tǒng)相分離的、基于標(biāo)準(zhǔn)企業(yè)模型集成的、帶有時(shí)間屬性的、面向主題及不可更新的數(shù)據(jù)集合。以1992年WHInmon出版《BuildingtheDataWarehouse》為標(biāo)志,數(shù)據(jù)倉庫發(fā)展速度很快。WHInmon被譽(yù)為數(shù)據(jù)倉庫之父。WHInmon對數(shù)據(jù)倉庫所下的定義:數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的、隨時(shí)間變化的數(shù)據(jù)集合,用以支持管理決策的過程。10面向主題數(shù)據(jù)倉庫中的數(shù)據(jù)是按照各種主題來組織的。主題在數(shù)據(jù)倉庫中的物理實(shí)現(xiàn)是一系列的相關(guān)表,這不同于面向應(yīng)用環(huán)境。如保