資源描述:
《數(shù)據(jù)倉庫基礎知識》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在教育資源-天天文庫。
1、解剖數(shù)據(jù)倉庫中國電子設備系統(tǒng)工程公司研究所劉東總參第六十一研究所 楊雪南 在過去的十幾年里,基于數(shù)據(jù)庫的應用軟件多數(shù)是面向聯(lián)機事務處理(OLTP)的,其主要目的是讓大量的日常事務電子化。這時數(shù)據(jù)的價值僅僅體現(xiàn)在保證完成一個事務,而數(shù)據(jù)的體系結構、數(shù)據(jù)的含義并沒有引起人們足夠的重視。 數(shù)據(jù)倉庫使人們從一個全新的角度認識到信息系統(tǒng)的重要性,也使人們發(fā)現(xiàn)了歷史數(shù)據(jù)的價值。從此,數(shù)據(jù)不僅僅用于檢索,還可以用來分析未來的發(fā)展趨勢,并為決策和管理提供支持。此時數(shù)據(jù)自身的價值和語義質量不再是一個純技術問題,而成為一
2、個業(yè)務問題,即實現(xiàn)信息的價值,也就是充分利用已有的數(shù)據(jù),挖掘數(shù)據(jù)中潛在的信息價值。然而,傳統(tǒng)數(shù)據(jù)庫應用系統(tǒng)中遺留的數(shù)據(jù)不一致性和不連續(xù)性給這一業(yè)務帶來了極大的困難?! 榱丝朔鲜隼щy,就需要提出一種彌補數(shù)據(jù)體系結構缺陷的方法,即建立一個虛擬的集成數(shù)據(jù)庫,用來存儲真實的歷史數(shù)據(jù),并盡可能降低物理的不一致性和語義的不連續(xù)性,使現(xiàn)有的數(shù)據(jù)能夠應用于管理和決策目的。而這正是數(shù)據(jù)倉庫蓬勃發(fā)展的真正動因。 建立數(shù)據(jù)倉庫的主要目的是滿足管理者和決策者全面了解內(nèi)部情況和外部環(huán)境的需要。數(shù)據(jù)倉庫的長遠價值在于建立適應企
3、業(yè)高速變化的結構化環(huán)境。由于企業(yè)的生存依賴于對市場變化的反應能力,所以數(shù)據(jù)倉庫對于信息時代的企業(yè)具有很大的價值。數(shù)據(jù)倉庫技術首先在商業(yè)、金融和企事業(yè)管理等領域獲得了巨大成功,現(xiàn)在又不斷向其它決策支持應用中拓展?! ∪欢魏渭夹g一旦被當成包治百病的靈丹妙藥,就極有可能走入誤區(qū)而最終使人們失望。這很容易讓人聯(lián)想起當年的人工智能熱潮。其實,這些技術本身并沒有什么問題,只是當它們被寄予不切實際的期望之后反而更加令人失望。但愿數(shù)據(jù)倉庫不會重蹈覆轍?! ∑鋵崳瑪?shù)據(jù)倉庫的目標與已經(jīng)應用了多年的決策支持系統(tǒng)(DSS)并
4、無太大差別,只是它的目標更加具體——主要面向與時間相關的多維數(shù)據(jù)分析,手段更加科學——充分利用歷史數(shù)據(jù)且重視數(shù)據(jù)的體系結構和語義等。事實上,如今有許多數(shù)據(jù)倉庫工具供應商都是原來從事DSS工具開發(fā)的,而且數(shù)據(jù)倉庫目前主要是在商業(yè)營銷等個別領域取得了比較明顯的成功。如果沒有真正理解數(shù)據(jù)倉庫的概念就盲目實施大型數(shù)據(jù)倉庫項目,結局一定是失敗的。有些企業(yè)根本就沒有注意到概括數(shù)據(jù)和元數(shù)據(jù)的作用便把他們的DSS稱為數(shù)據(jù)倉庫,這注定是不會成功的?! ?shù)據(jù)倉庫中的數(shù)據(jù)庫是面向主題和集成的,具備這種特性的數(shù)據(jù)庫需要經(jīng)過仔細規(guī)
5、劃和設計才能得到,這其中包括:數(shù)據(jù)庫設計、預處理數(shù)據(jù)的設計、數(shù)據(jù)加載/變換過程的設計、元數(shù)據(jù)設計、用于大型數(shù)據(jù)庫的設計技術等等?! ≡O計含有預處理數(shù)據(jù)的數(shù)據(jù)庫是指所建立的數(shù)據(jù)庫能夠支持用戶多層次、多視角地查看周期數(shù)據(jù)。包含預處理信息是數(shù)據(jù)倉庫區(qū)別于傳統(tǒng)DSS的顯著標志之一。另外,還必須規(guī)劃數(shù)據(jù)倉庫的數(shù)據(jù)加載工作。這里,數(shù)據(jù)清洗是必不可少的,其中包括提高數(shù)據(jù)的準確性,并且將不同環(huán)境中的數(shù)據(jù)進行復雜的匹配,還需要一個對關鍵字進行規(guī)范化的機制。這其中涉及到的數(shù)據(jù)變換是相當復雜的?! ≡獢?shù)據(jù)設計也是數(shù)據(jù)倉庫設計的
6、重要組成部分。元數(shù)據(jù)和訪問元數(shù)據(jù)的工具決定著用戶利用數(shù)據(jù)倉庫中數(shù)據(jù)的能力。元數(shù)據(jù)能將原始數(shù)據(jù)轉變成對決策者和管理者有用的信息。只有通過這樣的數(shù)據(jù)導航,用戶才能找到他們想要的數(shù)據(jù),提出他們想問的問題,從事他們想做的分析。只有經(jīng)過深入細致的設計才能將元數(shù)據(jù)目錄和易于訪問的前端展現(xiàn)工具有機地結合起來?! ∽詈笫怯糜诖笮蛿?shù)據(jù)庫系統(tǒng)的專門技術。通常數(shù)據(jù)倉庫中的數(shù)據(jù)量都在千兆字節(jié)以上,若不采用一些特殊的方法是無法實際處理如此大量數(shù)據(jù)的。好在許多最新版本的數(shù)據(jù)庫管理系統(tǒng),如Oracle8、IBMDB2V5等都提供了各種
7、不同的大規(guī)模并行處理和性能優(yōu)化技術,以提高對大型數(shù)據(jù)庫處理的效率。概念篇概念詮釋 數(shù)據(jù)倉庫這個名詞最早出現(xiàn)于90年代初,如今被商家“炒作”得異?;馃?。然而,數(shù)據(jù)倉庫所取得的成就還遠不如商家們宣傳的那樣輝煌,開發(fā)一個成功的數(shù)據(jù)倉庫項目并不是一件容易的事。事實上,有許多數(shù)據(jù)倉庫項目都失敗了。造成數(shù)據(jù)倉庫項目失敗的原因有技術問題、管理問題、設計問題和規(guī)模問題等,但筆者認為從根源上講主要還是概念問題,即未能真正理解和把握數(shù)據(jù)倉庫的概念。認識數(shù)據(jù)倉庫 數(shù)據(jù)倉庫并不是一個新的平臺,它仍然建立在數(shù)據(jù)庫管理系統(tǒng)基礎上
8、,只是一個新的概念。從用戶的角度來看,數(shù)據(jù)倉庫是一些數(shù)據(jù)、過程、工具和設施,它能夠管理完備的、及時的、準確的和可理解的業(yè)務信息,并把這種信息提交給授權的個人使他們有效地作出決策。數(shù)據(jù)倉庫之父W.H.Inmon給數(shù)據(jù)倉庫下的定義是:數(shù)據(jù)倉庫是集成的、面向主題的、用于決策支持的數(shù)據(jù)庫集合,其中每個數(shù)據(jù)單元都與時間相關。數(shù)據(jù)倉庫中的數(shù)據(jù)應當是良構的(well-formed)、一致的(consistent)、相對穩(wěn)定的。另外,它的數(shù)據(jù)