資源描述:
《etl系統(tǒng)的研究與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關內容在工程資料-天天文庫。
1、ETL系統(tǒng)的研究與實現(xiàn) (1.XX交通大學電子與信息學院,XX100044;2.河北工業(yè)大學,天津300130)
摘要:文章介紹了ETL(Extract-Transform-Load)的實現(xiàn),其主要作用在于對各類業(yè)務數(shù)據(jù)進行清理、標準化和匯總,為基于數(shù)據(jù)倉庫的決策分析應用提供高質量的數(shù)據(jù)。
關鍵詞:ETL;元數(shù)據(jù)管理;數(shù)據(jù)倉庫
中圖分類號:TP311文獻標識碼:A文章編號:1007—6921(XX)20—0082—01
隨著全球信息一體化建設步伐的不斷加快,越來越多的企業(yè)開始構建自己的數(shù)據(jù)倉庫系統(tǒng),希望能對歷史數(shù)據(jù)進行具體而又有針對性的
2、分析與挖掘,以期從中發(fā)現(xiàn)客戶新的需求和新客戶。同時,很多企業(yè)開始提供整套的數(shù)據(jù)倉庫解決方案,包括ETL工具。
1ETL系統(tǒng)分析
本文所設計的ETL工具對存在于不同平臺上的異構數(shù)據(jù)源進行抽取,然后把數(shù)據(jù)緩沖到內存中按照用戶定義的規(guī)則進行轉換,最后把轉換好的數(shù)據(jù)加載到目標數(shù)據(jù)庫中,主要從以下幾個方面進行考慮:
1.1對多種數(shù)據(jù)源的支持
目前,市場上存在著各種各樣的數(shù)據(jù)源,主要包括以下幾種:SqlServer等數(shù)據(jù)庫,XML文件,Excel文件等。所以在設計ETL工具時,要考慮讓它盡可能的支持多種數(shù)據(jù)源。
1.2可擴展性和可集成性
可擴展
3、性主要是考慮到該軟件的應用擴展,這要求對整個系統(tǒng)進行模塊化設計,可以根據(jù)需求動態(tài)擴展新的應用模塊,并且新增模塊不影響原來模塊的使用,盡量減少系統(tǒng)的耦合。可集成性主要考慮很多應用需要把ETL工具嵌入到各自的應用系統(tǒng)中,所以在設計ETL的時候,應對整個系統(tǒng)的各個模塊接口進行充分考慮,盡可能讓各個接口進行參數(shù)化調用。
2ETL系統(tǒng)設計
2.1軟件系統(tǒng)架構設計
軟件系統(tǒng)架構如圖1所示:
740)this.width=740"border=undefined>
圖1中,ETL工具把源數(shù)據(jù)和目標數(shù)據(jù)庫分開,工具從左邊的數(shù)據(jù)源抽取數(shù)據(jù),然后清洗、轉換、加載到右邊
4、的目標數(shù)據(jù)庫。首先,ETL工具掃描數(shù)據(jù)源和目標數(shù)據(jù)庫的體系結構信息,并存儲在元數(shù)據(jù)庫中;用戶在定義ETL規(guī)則時,系統(tǒng)從元數(shù)據(jù)庫中取得數(shù)據(jù)源和目標數(shù)據(jù)庫的體系結構信息,用戶在規(guī)則定義界面中進行簡單拖放操作建立從源到目的的字段映像,再定義流程中的清洗、轉換規(guī)則和加載規(guī)則,定義完成后把規(guī)則保存在元數(shù)據(jù)庫中;當用戶選擇一個已經定義好的ETL工作,并執(zhí)行時,系統(tǒng)從元數(shù)據(jù)庫中取得該ETL工作的抽取、清洗、轉換、加載規(guī)則,并進行解析、分配到不同的線程中;當數(shù)據(jù)處理完畢后,把本次的作業(yè)執(zhí)行統(tǒng)計信息保存到元數(shù)據(jù)庫中。
系統(tǒng)分為三大模塊,分別為:元數(shù)據(jù)管理、用戶接口、執(zhí)行服
5、務器。元數(shù)據(jù)管理的主要作用就是掃描數(shù)據(jù)源和目標數(shù)據(jù)庫的體系結構信息以及存儲用戶定義的ETL規(guī)則,管理元數(shù)據(jù)庫中的元數(shù)據(jù)。用戶接口和執(zhí)行服務器相互獨立,它們之間的邏輯關系通過元數(shù)據(jù)庫進行關聯(lián),所以用戶接口和執(zhí)行服務器可以分開設計和實現(xiàn)。
2.2網絡架構設計
網絡架構如圖2所示:
740)this.width=740"border=undefined>
從圖2中,我們可以看出系統(tǒng)的三大模塊可以分布于不同的機器上,甚至可以分布在不同的網絡中,而且可以有多個客戶端用戶。在數(shù)據(jù)抽取、加載方面,由于ADO.NET具有穿透防火墻的能力,
6、所以,源數(shù)據(jù)庫和目標數(shù)據(jù)庫可以分布在不同的網絡中。
3總結
ETL在數(shù)據(jù)倉庫構建過程中的角色,決定了它在商業(yè)領域有非常大的市場空間。在技術領域,ETL必須能夠適應各種復雜的應用環(huán)境,具有全面的功能和高的工作效率,并方便用戶使用。今天,越來越多的企業(yè)正在構建數(shù)據(jù)倉庫來滿足其戰(zhàn)略決策需要,而采用ETL工具進行數(shù)據(jù)集成,也已成為企業(yè)實施數(shù)據(jù)倉庫項目的首選方案。
[參考文獻]
?。?]樓偉進等數(shù)據(jù)倉庫與知識發(fā)現(xiàn)[J]計算機工程與應用,2000,(10).
?。?]柳鶯,等數(shù)據(jù)倉庫技術研究和應用探討[J]計算機應用,2001,(2).
?。?/p>
7、3](美)貝爾松(Berson,A),等數(shù)據(jù)倉庫、數(shù)據(jù)發(fā)掘和聯(lián)機分析處理[M]世界圖書出版公司.