核電行業(yè)實時etl系統(tǒng)的設(shè)計與實現(xiàn)

核電行業(yè)實時etl系統(tǒng)的設(shè)計與實現(xiàn)

ID:21497235

大小:31.00 KB

頁數(shù):9頁

時間:2018-10-22

核電行業(yè)實時etl系統(tǒng)的設(shè)計與實現(xiàn)_第1頁
核電行業(yè)實時etl系統(tǒng)的設(shè)計與實現(xiàn)_第2頁
核電行業(yè)實時etl系統(tǒng)的設(shè)計與實現(xiàn)_第3頁
核電行業(yè)實時etl系統(tǒng)的設(shè)計與實現(xiàn)_第4頁
核電行業(yè)實時etl系統(tǒng)的設(shè)計與實現(xiàn)_第5頁
資源描述:

《核電行業(yè)實時etl系統(tǒng)的設(shè)計與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫

1、核電行業(yè)實時ETL系統(tǒng)的設(shè)計與實現(xiàn)  摘要本文以核電企業(yè)的數(shù)據(jù)倉庫需求為切入點,為了滿足決策支持類應(yīng)用對數(shù)據(jù)及時性的要求,提出了一種具有數(shù)據(jù)緩存機制的實時數(shù)據(jù)倉庫ETL架構(gòu),該架構(gòu)能夠均衡系統(tǒng)開銷,在突發(fā)大數(shù)據(jù)量的情況下保持決策支持類應(yīng)用的高服務(wù)質(zhì)量(QoS)。該ETL架構(gòu)已基于Informatica產(chǎn)品開發(fā)實現(xiàn),其合理性與有效性得到了驗證?!  娟P(guān)鍵詞】實時數(shù)據(jù)倉庫ETL數(shù)據(jù)緩存  1引言  隨著我國核電信息化水平的提高,核電企業(yè)已經(jīng)進入到流程特征量化、績效驅(qū)動、以信息技術(shù)為依托的發(fā)展階段。數(shù)據(jù)倉庫是管理信息并分析利用的最有效的方式,可為核電企業(yè)進行各級流程的績效評估,改善決策過程

2、,并便于同行對標?! ⊥ǔ?,ETL過程是以“脫機”方式執(zhí)行的。數(shù)據(jù)以批傳輸?shù)姆绞綇脑粗谐槿?,進行轉(zhuǎn)換,清洗,再加載到數(shù)據(jù)倉庫。這一組活動會在一個專用的時間窗口中執(zhí)行,通常是在夜間,以防給源系統(tǒng)帶來過大的工作負荷。然而,核電企業(yè)的部分應(yīng)用對數(shù)據(jù)倉庫中數(shù)據(jù)的及時性有很強的要求,例如缺陷預(yù)警、輻射防護、運行數(shù)據(jù)分析等領(lǐng)域的OLAP、數(shù)據(jù)挖掘、可視化報表等應(yīng)用,它們可能只能接受分鐘級甚至秒級的數(shù)據(jù)延遲。單純靠提高ETL更新頻率來滿足這類需求是不可行的,因為頻繁批傳輸會給源系統(tǒng)或數(shù)據(jù)倉庫帶來過大的系統(tǒng)開銷,而且隨著數(shù)據(jù)量的增大,批傳輸將會無法在更新間隔內(nèi)做完?! ≡诖饲闆r下,有必要引入實時ET

3、L??蓪⒃磾?shù)據(jù)分類為兩組。第一組使用快速,高選擇性,非阻塞的ETL,使該部分數(shù)據(jù)近乎實時的更新,以便快速、實時的支持決策過程。其余的源數(shù)據(jù)可以在夜間進行統(tǒng)一的批傳輸更新?! ×硗?,核電行業(yè)對信息系統(tǒng)的服務(wù)質(zhì)量(包括可用性、數(shù)據(jù)及時度、吞吐量、查詢響應(yīng)時間等)有著更高的要求,在設(shè)計實時ETL系統(tǒng)的過程中,必須考慮大數(shù)據(jù)量和大系統(tǒng)開銷的情形,保持源系統(tǒng)和決策支持類系統(tǒng)的高服務(wù)質(zhì)量?! ?實時數(shù)據(jù)倉庫的ETL架構(gòu)  本文提出的實時數(shù)據(jù)倉庫ETL架構(gòu)由以下元素組成: ?。?)數(shù)據(jù)源,產(chǎn)生數(shù)據(jù)的系統(tǒng),這些數(shù)據(jù)會填充到數(shù)據(jù)倉庫; ?。?)位于中間的數(shù)據(jù)處理區(qū)域(DataProcessingAre

4、a,DPA),對產(chǎn)生的數(shù)據(jù)進行清洗和轉(zhuǎn)換; ?。?)數(shù)據(jù)倉庫(DW)。該架構(gòu)如圖1所示?! ∶總€源可以認為是由一個數(shù)據(jù)存儲體(常規(guī)數(shù)據(jù)庫、文件等)和一個業(yè)務(wù)數(shù)據(jù)管理系統(tǒng)(DBMS、某應(yīng)用程序)組成。發(fā)生在源端的變化首先會被識別是否與ETL過程相關(guān),隨后會向數(shù)據(jù)倉庫傳輸。每個源都設(shè)有一個源數(shù)據(jù)流監(jiān)控器(SFlowR)模塊,負責(zé)識別相關(guān)的變化,并定期或以適當?shù)拈g隔將變化向數(shù)據(jù)倉庫傳輸?! ?shù)據(jù)處理數(shù)據(jù)流監(jiān)控器(DPFlowR)模塊負責(zé)決定由哪個源發(fā)送數(shù)據(jù),一旦源發(fā)送數(shù)據(jù),數(shù)據(jù)處理區(qū)域中的工作流會接收它,這些工作流清洗數(shù)據(jù)并按數(shù)據(jù)倉庫的格式轉(zhuǎn)換數(shù)據(jù)。數(shù)據(jù)處理區(qū)域還可以有多種職能:  (1)

5、兼顧SFlowR職能,減輕源的負荷;  (2)也可承擔(dān)數(shù)據(jù)倉庫數(shù)據(jù)流監(jiān)控器(WFlowR)的職能(在數(shù)據(jù)倉庫無法處理源產(chǎn)生的數(shù)據(jù)流量的情形); ?。?)可以執(zhí)行諸如檢查點、準備匯總和QoS管理等任務(wù)。傳入數(shù)據(jù)也可以暫存到適當?shù)臅捍婺K,以使DPA能滿足所有工作流的吞吐量?! ∫坏┧修D(zhuǎn)換流程結(jié)束,數(shù)據(jù)可向數(shù)據(jù)倉庫中裝載。WFlowR根據(jù)終端用戶提交查詢的工作負荷,以及對數(shù)據(jù)及時度、吞吐量、查詢響應(yīng)時間等QoS的要求,將DPA的?稻荼嗯挪⒋?送到數(shù)據(jù)倉庫?! ?shù)據(jù)倉庫(DW)由不同類型的元素構(gòu)成: ?。?)事實表(Fact),包含用戶主要關(guān)注的現(xiàn)實中事件或事實的記錄, ?。?)維度表(

6、DIM),包含解釋事實不同方面信息的參考記錄, ?。?)各種類型的索引(INDX),用來加快查詢處理的速度, ?。?)物化視圖,包含最終提交給用戶的匯總信息。物化視圖允許抽取各類計算過一次的匯總信息,加以存儲,以便進行檢索、查詢和定期更新,并反映一個或多個事實表的當前狀態(tài)?! ≡诶硐霠顩r下,源,數(shù)據(jù)處理區(qū)和數(shù)據(jù)倉庫都能夠在給定的時間窗內(nèi)處理所有的數(shù)據(jù)。由于許多可能的原因,如用戶查詢頻率高,更新頻率高,轉(zhuǎn)換和清洗階段某些部分的開銷大,甚至是運行過程中架構(gòu)內(nèi)某部分出現(xiàn)故障,使其在實際情況中不成立。于是,在實時ETL的情況下,為確保服務(wù)質(zhì)量,上述組件需要帶有輔助結(jié)構(gòu),來緩解數(shù)據(jù)頻繁刷新的工

7、作負荷。為此,實時ETL架構(gòu)中增加了數(shù)據(jù)暫存節(jié)點。這些節(jié)點保留部分的傳輸數(shù)據(jù),以備后處理。故數(shù)據(jù)流監(jiān)控器中需要有一個簡單的選擇機制來決定哪些數(shù)據(jù)要實時的被ETL工作流處理,哪些會進入數(shù)據(jù)暫存,使其在數(shù)據(jù)倉庫的空閑期處理?! 〕鲇谶@些考慮,設(shè)計了一個工作在脫機模式下的補償模式。規(guī)劃了數(shù)據(jù)暫存中的數(shù)據(jù)被處理并載入數(shù)據(jù)倉庫的過程。如圖2所示?! ?實時ETL的技術(shù)選擇  實時數(shù)據(jù)倉庫架構(gòu)中的各部件,如抽取器、SFlowR、DPFlowR、DPA、WFlowR、數(shù)

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。