資源描述:
《數(shù)據(jù)倉庫構(gòu)建方法》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、數(shù)據(jù)倉庫是面向主題的、集成的、不可更新的、隨時間的變化而不斷變化的,這些特點(diǎn)決定了數(shù)據(jù)倉庫的系統(tǒng)設(shè)計不能采用同開發(fā)傳統(tǒng)的OLTP數(shù)據(jù)庫一樣的設(shè)計方法。數(shù)據(jù)倉庫系統(tǒng)的原始需求不明確,且不斷變化與增加,開發(fā)者最初不能確切了解到用戶的明確而詳細(xì)的需求,用戶所能提供的無非是需求的大的方向以及部分需求,更不能較準(zhǔn)確地預(yù)見到以后的需求。因此,采用原型法來進(jìn)行數(shù)據(jù)倉庫的開發(fā)是比較合適的,因?yàn)樵头ǖ乃枷胧菑臉?gòu)建系統(tǒng)的簡單的基本框架著手,不斷豐富與完善整個系統(tǒng)。但是,數(shù)據(jù)倉庫的設(shè)計開發(fā)又不同于一般意義上的原型法,數(shù)據(jù)倉庫的設(shè)計是數(shù)據(jù)驅(qū)動的。這是因?yàn)閿?shù)
2、據(jù)倉庫是在現(xiàn)存數(shù)據(jù)庫系統(tǒng)基礎(chǔ)上進(jìn)行開發(fā),它著眼于有效地抽取、綜合、集成和挖掘已有數(shù)據(jù)庫的數(shù)據(jù)資源,服務(wù)于企業(yè)高層領(lǐng)導(dǎo)管理決策分析的需要。但需要說明的是,數(shù)據(jù)倉庫系統(tǒng)開發(fā)是一個經(jīng)過不斷循環(huán)、反饋而使系統(tǒng)不斷增長與完善的過程,這也是原型法區(qū)別于系統(tǒng)生命周期法的主要特點(diǎn)。因此,在數(shù)據(jù)倉庫的開發(fā)的整個過程中,自始至終要求決策人員和開發(fā)者的共同參與和密切協(xié)作,要求保持靈活的頭腦,不做或盡量少做無效工作或重復(fù)工作。數(shù)據(jù)倉庫的設(shè)計大體上可以分為以下幾個步驟:概念模型設(shè)計;技術(shù)準(zhǔn)備工作;邏輯模型設(shè)計;物理模型設(shè)計;數(shù)據(jù)倉庫生成;數(shù)據(jù)倉庫運(yùn)行與維護(hù)。下
3、面我們六個主要設(shè)計步驟為主線,介紹在各個設(shè)計步驟中設(shè)計的基本內(nèi)容。第一節(jié)概念模型設(shè)計進(jìn)行概念模型設(shè)計所要完成的工作是:<1>界定系統(tǒng)邊界<2>確定主要的主題域及其內(nèi)容概念模型設(shè)計的成果是,在原有的數(shù)據(jù)庫的基礎(chǔ)上建立了一個較為穩(wěn)固的概念模型。因?yàn)閿?shù)據(jù)倉庫是對原有數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)進(jìn)行集成和重組而形成的數(shù)據(jù)集合,所以數(shù)據(jù)倉庫的概念模型設(shè)計,首先要對原有數(shù)據(jù)庫系統(tǒng)加以分析理解,看在原有的數(shù)據(jù)庫系統(tǒng)中“有什么”、“怎樣組織的”和“如何分布的”等,然后再來考慮應(yīng)當(dāng)如何建立數(shù)據(jù)倉庫系統(tǒng)的概念模型。一方面,通過原有的數(shù)據(jù)庫的設(shè)計文檔以及在數(shù)據(jù)字典中
4、的數(shù)據(jù)庫關(guān)系模式,可以對企業(yè)現(xiàn)有的數(shù)據(jù)庫中的內(nèi)容有一個完整而清晰的認(rèn)識;另一方面,數(shù)據(jù)倉庫的概念模型是面向企業(yè)全局建立的,它為集成來自各個面向應(yīng)用的數(shù)據(jù)庫的數(shù)據(jù)提供了統(tǒng)一的概念視圖。概念模型的設(shè)計是在較高的抽象層次上的設(shè)計,因此建立概念模型時不用考慮具體技術(shù)條件的限制。1界定系統(tǒng)的邊界數(shù)據(jù)倉庫是面向決策分析的數(shù)據(jù)庫,我們無法在數(shù)據(jù)倉庫設(shè)計的最初就得到詳細(xì)而明確的需求,但是一些基本的方向性的需求還是擺在了設(shè)計人員的面前:·要做的決策類型有哪些?·決策者感興趣的是什么問題?·這些問題需要什么樣的信息?·要得到這些信息需要包含原有數(shù)據(jù)庫系統(tǒng)
5、的哪些部分的數(shù)據(jù)?這樣,我們可以劃定一個當(dāng)前的大致的系統(tǒng)邊界,集中精力進(jìn)行最需要的部分的開發(fā)。因而,從某種意義上講,界定系統(tǒng)邊界的工作也可以看作是數(shù)據(jù)倉庫系統(tǒng)設(shè)計的需求分析,因?yàn)樗鼘Q策者的數(shù)據(jù)分析的需求用系統(tǒng)邊界的定義形式反映出來。2確定主要的主題域在這一步中,要確定系統(tǒng)所包含的主題域,然后對每個主題域的內(nèi)容進(jìn)行較明確的描述,描述的內(nèi)容包括:·主題域的公共碼鍵;·主題域之間的聯(lián)系;·充分代表主題的屬性組。第二節(jié)技術(shù)準(zhǔn)備工作這一階段的工作包括:技術(shù)評估,技術(shù)環(huán)境準(zhǔn)備。這一階段的成果是:技術(shù)評估報告、軟硬件配置方案、系統(tǒng)(軟、硬件)總體
6、設(shè)計方案。管理數(shù)據(jù)倉庫的技術(shù)要求與管理操作型環(huán)境中的數(shù)據(jù)與處理的技術(shù)要求區(qū)別很大,兩者所考慮的方面也不同。我們之所以在一般情況下總是將分析型數(shù)據(jù)與操作型數(shù)據(jù)分離開來,將分析型數(shù)據(jù)單獨(dú)集中存放,也就是用數(shù)據(jù)倉庫來存放,技術(shù)要求上的差異是一個重要原因。1技術(shù)評估進(jìn)行技術(shù)評估,就是確定數(shù)據(jù)倉庫的各項(xiàng)性能指標(biāo)。一般情況下,需要在這一步里確定的性能指標(biāo)包括:·管理大數(shù)據(jù)量數(shù)據(jù)的能力;·進(jìn)行靈活數(shù)據(jù)存取的能力;·根據(jù)數(shù)據(jù)模型重組數(shù)據(jù)的能力;·透明的數(shù)據(jù)發(fā)送和接收能力;·周期性成批裝載數(shù)據(jù)的能力;·可設(shè)定完成時間的作業(yè)管理能力。2技術(shù)環(huán)境準(zhǔn)備一旦數(shù)
7、據(jù)倉庫的體系化結(jié)構(gòu)的模型大體建好后,下一步的工作就是確定我們應(yīng)該怎樣來裝配這個體系化結(jié)構(gòu)模型,主要是確定對軟硬件配置的要求;我們主要考慮相關(guān)的問題:·預(yù)期在數(shù)據(jù)倉庫上分析處理的數(shù)據(jù)量有多大?·如何減少或減輕競爭性存取程序的沖突?·數(shù)據(jù)倉庫的數(shù)據(jù)量有多大?·進(jìn)出數(shù)據(jù)倉庫的數(shù)據(jù)通信量有多大?等等。根據(jù)這些考慮,我們就可以確定各項(xiàng)軟硬件的配備要求,并且在這一步工作結(jié)束時各項(xiàng)技術(shù)準(zhǔn)備工作應(yīng)已就緒,可以裝載數(shù)據(jù)了。這些配備有:·直接存取設(shè)備(DASD);·網(wǎng)絡(luò);·管理直接存取設(shè)備(DASD)的操作系統(tǒng);·進(jìn)出數(shù)據(jù)倉庫的界面(主要是數(shù)據(jù)查詢和分析
8、工具);管理數(shù)據(jù)倉庫的軟件,目前即選用數(shù)據(jù)庫管理系統(tǒng)及有關(guān)的選件,購買的DBMS產(chǎn)品不能滿足管理數(shù)據(jù)倉庫需要的,還應(yīng)考慮自己或軟件集成商開發(fā)有關(guān)模塊等等。第三節(jié)邏輯模型設(shè)計在這一步里進(jìn)行的工作主要有:分析主題域,確定當(dāng)前