資源描述:
《數(shù)據(jù)倉庫ppt課件.ppt》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、數(shù)據(jù)倉庫DataWarehouse1數(shù)據(jù)倉庫——起源由20世紀(jì)60年代初期,運(yùn)行在主文件上的單個(gè)應(yīng)用是存儲在磁帶上,發(fā)展到1970年出現(xiàn)新的存儲技術(shù),磁盤存儲器(DirectAccessStorageDevice,DASD)數(shù)據(jù)庫管理系統(tǒng)(DatabaseManagementSystem,DBMS),70年代中期,出現(xiàn)了聯(lián)機(jī)事務(wù)處理(OnlineTransactionProcessing,OLTP)。聯(lián)機(jī)事務(wù)處理提高了訪問數(shù)據(jù)的快速,可以完成許多過去無法完成的事情。隨著PC機(jī)的發(fā)展,人們開始利用數(shù)據(jù)做更多的事。出現(xiàn)了抽取程序。抽取技術(shù),可
2、以實(shí)現(xiàn)把想要的數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)中分離出來,解決數(shù)據(jù)分析性能方面的問題。慢慢的人們發(fā)現(xiàn)在抽取結(jié)果中,加上一些條件限制可以更方便的得到想要的數(shù)據(jù),于是就出現(xiàn)了基于抽取之上的抽取。當(dāng)人們意識到無休止的抽取帶來諸多問題后,開始思考是否可以建立成體系的機(jī)構(gòu)化環(huán)境,以減少數(shù)據(jù)的差異。這也就是數(shù)據(jù)倉庫出現(xiàn)的原因。2數(shù)據(jù)倉庫——術(shù)語BI:(BusinessIntelligence):即商業(yè)智能,也看到有些媒體里寫作商務(wù)智能綜合企業(yè)所有沉淀下來的信息,用科學(xué)的分析方法,為企業(yè)領(lǐng)導(dǎo)提供科學(xué)決策信息的過程。DM(DataMine):數(shù)據(jù)挖掘是一個(gè)從大型數(shù)
3、據(jù)庫中提取以前未知的,可理解的,可執(zhí)行的有價(jià)值的信息并用它來進(jìn)行關(guān)鍵的商業(yè)決策的過程。聯(lián)機(jī)事務(wù)處理(OLTP):面向交易的處理過程,其基本特征是前臺接收的用戶數(shù)據(jù)可以立即傳送到計(jì)算中心進(jìn)行處理,并在很短的時(shí)間內(nèi)給出處理結(jié)果,是對用戶操作快速響應(yīng)的方式之一。聯(lián)機(jī)分析處理(OLAP):使分析人員能夠迅速、一致、交互地從各個(gè)方面觀察信息,以達(dá)到深入理解數(shù)據(jù)的目的。3數(shù)據(jù)倉庫——發(fā)展數(shù)據(jù)倉庫,由數(shù)據(jù)倉庫之父比爾·恩門(BillInmon)于1990年提出,主要功能是將組織透過資訊系統(tǒng)和聯(lián)機(jī)事務(wù)處理(OLTP)經(jīng)年累月所累積的大量資料,透過數(shù)據(jù)倉庫
4、理論所特有的資料儲存架構(gòu),作一有系統(tǒng)的分析整理,以利各種分析方法如聯(lián)機(jī)分析處理(OLAP)、數(shù)據(jù)挖掘(DataMining)之進(jìn)行,并進(jìn)而支持如決策支持系統(tǒng)(DSS)、主管資訊系統(tǒng)(EIS)之創(chuàng)建,幫助決策者能快速有效的從大量資料中,分析出有價(jià)值的資訊,以利決策擬定及快速回應(yīng)外在環(huán)境變動,幫助建構(gòu)商業(yè)智能(BI)。數(shù)據(jù)倉庫之父比爾·恩門(BillInmon)在1991年出版的“BuildingtheDataWarehouse”(《建立數(shù)據(jù)倉庫》)一書中所提出的定義被廣泛接受——數(shù)據(jù)倉庫(DataWarehouse)是一個(gè)面向主題的(Sub
5、jectOriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策(DecisionMakingSupport)。4數(shù)據(jù)倉庫——特征1.數(shù)據(jù)倉庫是面向主題的;操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)。2.數(shù)據(jù)倉庫是集成的;數(shù)據(jù)倉庫的數(shù)據(jù)有來自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來的數(shù)據(jù)中抽取出來,進(jìn)行加工與集成
6、,統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉庫。3.數(shù)據(jù)倉庫是不可更新的;數(shù)據(jù)倉庫主要是為決策分析提供數(shù)據(jù),所涉及的操作主要是數(shù)據(jù)的查詢。4.大容量、非規(guī)范化;時(shí)間序列數(shù)據(jù)集合通常非常大,數(shù)據(jù)倉庫可以是而且經(jīng)常是冗余的。5為什么需要數(shù)據(jù)倉庫?數(shù)據(jù)倉庫,是在數(shù)據(jù)庫已經(jīng)大量存在的情況下,為了進(jìn)一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的,它并不是所謂的“大型數(shù)據(jù)庫”。數(shù)據(jù)倉庫的方案建設(shè)的目的,為前端查詢和分析作為基礎(chǔ),由于有較大的冗余,所以需要的存儲也較大。所以需要數(shù)據(jù)倉庫為公司的決策提供數(shù)據(jù)支持和分析。1.效率足夠高;數(shù)據(jù)倉庫的分析數(shù)據(jù)一般分為日、周、月、季、
7、年等,可以看出要求24小時(shí)甚至12小時(shí)內(nèi),客戶能看到昨天的數(shù)據(jù)分析。2.數(shù)據(jù)質(zhì)量、擴(kuò)展性;準(zhǔn)確的數(shù)據(jù)以及數(shù)據(jù)建模的合理性,數(shù)據(jù)倉庫方案中多出一些中間層,使海量數(shù)據(jù)流有足夠的緩沖,不至于數(shù)據(jù)量大很多,就運(yùn)行不起來了。4.面向主題;數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織的,排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。6數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別出發(fā)點(diǎn)不同:數(shù)據(jù)庫是面向事務(wù)的設(shè)計(jì);數(shù)據(jù)倉庫是面向主題設(shè)計(jì)的。存儲的數(shù)據(jù)不同:數(shù)據(jù)庫一般存儲在線交易數(shù)據(jù);數(shù)據(jù)倉庫存儲的一般是歷史數(shù)據(jù)。容量不同、設(shè)計(jì)規(guī)則不同:數(shù)據(jù)庫設(shè)計(jì)是盡量避免冗余,一般采用符合
8、范式的規(guī)則來設(shè)計(jì);數(shù)據(jù)倉庫在設(shè)計(jì)是有意引入冗余,采用反范式的方式來設(shè)計(jì)。提供的功能不同:數(shù)據(jù)庫是為捕獲數(shù)據(jù)而設(shè)計(jì),數(shù)據(jù)倉庫是為分析數(shù)據(jù)而設(shè)計(jì)?;驹夭煌簲?shù)據(jù)庫的基本元素是事實(shí)表,數(shù)據(jù)倉庫的