資源描述:
《數(shù)據(jù)倉庫,聯(lián)機(jī)分析處理,數(shù)據(jù)挖掘DataWarehousing,》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、數(shù)據(jù)倉庫,聯(lián)機(jī)分析處理,數(shù)據(jù)挖掘DataWarehousing,OLAP,andDataMining數(shù)據(jù)倉庫:一個(gè)面向主題的、集成的、隨時(shí)間變化的、非易失性數(shù)據(jù)的集合,用于支持管理層的決策過程。OLAP與數(shù)據(jù)挖掘工具:是兩種主要的分析工具,提供給決策者對(duì)數(shù)據(jù)進(jìn)行分析,以針對(duì)分析結(jié)果做出決策。概要數(shù)據(jù)倉庫的引出1.傳統(tǒng)數(shù)據(jù)庫以及OLTP(On-LineTransactionProcessing聯(lián)機(jī)事務(wù)處理)在日常的管理事務(wù)處理中獲得了巨大的成功,但是對(duì)管理人員的決策分析要求卻無法滿足。2.因?yàn)?,管理人員常常希望能夠通過對(duì)組織中的大量數(shù)據(jù)進(jìn)行分析,了解業(yè)務(wù)的的發(fā)展趨勢
2、。而傳統(tǒng)數(shù)據(jù)庫只保留了當(dāng)前的業(yè)務(wù)處理信息,缺乏決策分析所需要的大量的歷史信息。3.為滿足管理人員的決策分析需要,就需要在數(shù)據(jù)庫的基礎(chǔ)上產(chǎn)生適應(yīng)決策分析的數(shù)據(jù)環(huán)境——數(shù)據(jù)倉庫(DataWarehose)。數(shù)據(jù)倉庫的定義與基本特性1.數(shù)據(jù)倉庫的定義WilliamH.Inmon在1993年所寫的論著《BuildingtheDataWarehouse》首先系統(tǒng)地闡述了關(guān)于數(shù)據(jù)倉庫的思想、理論,為數(shù)據(jù)倉庫的發(fā)展奠定了歷史基石。文中他將數(shù)據(jù)倉庫定義為:adatawarehouseisasubject-oriented,integrated,non-volatile,time-
3、variantcollectionofdatainsupportofmanagementdecisions.一個(gè)面向主題的、集成的、非易失性的、隨時(shí)間變化的數(shù)據(jù)的集合,以用于支持管理層決策過程。2.數(shù)據(jù)倉庫的重要特性a)subject-oriented(面向主題性)面向主題表示了數(shù)據(jù)倉庫中數(shù)據(jù)組織的基本原則,數(shù)據(jù)倉庫中的數(shù)由數(shù)據(jù)都是圍繞著某一主題組織展開的。由于數(shù)據(jù)倉庫的用戶大多是企業(yè)的管理決策者,這些人所面對(duì)的往往是一些比較抽象的、層次較高的管理分析對(duì)象。例如,企業(yè)中的客戶、產(chǎn)品、供應(yīng)商等都可以作為主題看待。從信息管理的角度看,主題就是在一個(gè)較高的管理層次上對(duì)信
4、息系統(tǒng)的數(shù)據(jù)按照某一具體的管理對(duì)象進(jìn)行綜合、歸類所形成的分析對(duì)象。從數(shù)據(jù)組織的角度看,主題是一些數(shù)據(jù)集合,這些數(shù)據(jù)集合對(duì)分析對(duì)象作了比較完整的、一致的描述,這種描述不僅涉及到數(shù)據(jù)自身,而且涉及到數(shù)據(jù)之間的關(guān)系。數(shù)據(jù)倉庫的集成性是指根據(jù)決策分析的要求,將分散于各處的源數(shù)據(jù)進(jìn)行抽取、篩選、清理、綜合等工作,使數(shù)據(jù)倉庫的數(shù)據(jù)具有集成性。b)integrated(數(shù)據(jù)集成性)數(shù)據(jù)倉庫在從業(yè)務(wù)處理系統(tǒng)那里獲取數(shù)據(jù)時(shí),并不能將源數(shù)據(jù)庫中的數(shù)據(jù)直接加載到數(shù)據(jù)倉庫中,而是需要進(jìn)行一系列的數(shù)據(jù)預(yù)處理,即數(shù)據(jù)的抽取、篩選、清理、綜合等集成工作。也就是說,首先要從源數(shù)據(jù)庫中挑選出數(shù)據(jù)倉
5、庫所需要的數(shù)據(jù),然后將這些來自不同數(shù)據(jù)庫中的數(shù)據(jù)按照某一標(biāo)準(zhǔn)進(jìn)行統(tǒng)一,即將不同數(shù)據(jù)源中的數(shù)據(jù)的單位、字長與內(nèi)容按照數(shù)據(jù)倉庫的要求統(tǒng)一起來,消除源數(shù)據(jù)中字段的同名異義、異名同義現(xiàn)象,這些工作稱為數(shù)據(jù)的清理(clean),把數(shù)據(jù)倉庫的數(shù)據(jù)呈現(xiàn)給用戶一個(gè)一致統(tǒng)一的視圖。源數(shù)據(jù)加載到數(shù)據(jù)倉庫后,還要根據(jù)決策分析的需要對(duì)這些數(shù)據(jù)進(jìn)行概括、聚集處理。數(shù)據(jù)倉庫的時(shí)變性,就是數(shù)據(jù)應(yīng)該隨著時(shí)間的推移而變化。c)time-variant數(shù)據(jù)的時(shí)變性盡管數(shù)據(jù)倉庫中的數(shù)據(jù)并不像業(yè)務(wù)數(shù)據(jù)庫那樣反映業(yè)務(wù)處理的實(shí)際狀況,但是數(shù)據(jù)也不能長期不變,如果依據(jù)10前的數(shù)據(jù)進(jìn)行決策分析,那決策所帶來的后
6、果將是十分可怕的。因此,數(shù)據(jù)倉庫必須能夠不斷捕捉主題的變化數(shù)據(jù),將那些變化的數(shù)據(jù)追加到數(shù)據(jù)倉庫中去,也就是說在數(shù)據(jù)倉庫中必須不斷的生成主題的新快照,以滿足決策分析的需要。數(shù)據(jù)新快照生成的間隔,可以根據(jù)快照的生成速度和決策分析的需要而定。例如,如果分析企業(yè)近幾年的銷售情況,那快照可以每隔一個(gè)月生成一次;如果分析一個(gè)月的暢銷產(chǎn)品,那快照生成間隔就需要每天一次。d)non-volatile數(shù)據(jù)的非易失性數(shù)據(jù)倉庫的非易失性是指數(shù)據(jù)倉庫的數(shù)據(jù)不進(jìn)行更新處理,而是一旦數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,就會(huì)保持一個(gè)相當(dāng)長的時(shí)間。因?yàn)閿?shù)據(jù)倉庫中數(shù)據(jù)大多表示過去某一時(shí)刻的數(shù)據(jù),主要用于查詢、分
7、析,不像業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)庫那樣,要經(jīng)常進(jìn)行修改、添加,除非數(shù)據(jù)倉庫中的數(shù)據(jù)是錯(cuò)誤的。e)insupportofmanagementdecisions支持決策系統(tǒng)數(shù)據(jù)倉庫的組織的根本目的在于對(duì)決策的支持。高層的企業(yè)決策者、中層的管理者和基層的業(yè)務(wù)處理者等不同層次的管理人員均可以利用數(shù)據(jù)倉庫進(jìn)行決策分析,提高管理決策的質(zhì)量。企業(yè)管理人員可以利用數(shù)據(jù)倉庫進(jìn)行各種管理決策的分析,利用自己所特有的、敏銳的商業(yè)洞察力和業(yè)務(wù)知識(shí)從貌似平淡的數(shù)據(jù)發(fā)現(xiàn)眾多的商機(jī)。數(shù)據(jù)倉庫為管理者利用數(shù)據(jù)進(jìn)行管理決策分析提供了極大的便利。對(duì)比內(nèi)容數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)內(nèi)容當(dāng)前值歷史的、存檔的、歸納的、計(jì)
8、算的數(shù)據(jù)數(shù)