數(shù)據(jù)庫清洗產(chǎn)品etl工具

數(shù)據(jù)庫清洗產(chǎn)品etl工具

ID:34772603

大?。?3.18 KB

頁數(shù):4頁

時間:2019-03-10

數(shù)據(jù)庫清洗產(chǎn)品etl工具_第1頁
數(shù)據(jù)庫清洗產(chǎn)品etl工具_第2頁
數(shù)據(jù)庫清洗產(chǎn)品etl工具_第3頁
數(shù)據(jù)庫清洗產(chǎn)品etl工具_第4頁
資源描述:

《數(shù)據(jù)庫清洗產(chǎn)品etl工具》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、ETL工具的功能一、非功能性需求:(1)對平臺的支持要求能支持多種操作系統(tǒng)。目前主流的平臺包括SUNSolaris、HP-UX、IBMAIX、AS/400、OS/390、ScoUnix、Linux、Windows等(2)對數(shù)據(jù)源的支持針對同一種數(shù)據(jù)庫,使用通用的接口(如ODBC/JDBC)還是原廠商自己的專用接口,數(shù)據(jù)抽取效率會有很大差別,這直接關(guān)系到能不能在有限的時間內(nèi)完成。(如oracle的jdbc連接方式:oci和thin的選擇)ETL任務(wù)支持多種數(shù)據(jù)源:能支持多種數(shù)據(jù)庫Oracle,DB2,SQLServer,MySQL,SqlServer,Informix等。支持

2、ODBC數(shù)據(jù)源,支持JNDI數(shù)據(jù)源,支持共享應(yīng)用服務(wù)器數(shù)據(jù)源。支持文本數(shù)據(jù),支持將Excel,txt文件,csv,XML文件等文件型的數(shù)據(jù)直接作為數(shù)據(jù)源;支持內(nèi)置數(shù)據(jù)集。支持Hadoop,hive,hbase,implan,spark等大數(shù)據(jù)平臺(3)圖形化的支持圖形化ETL操作配置,要求操作簡易,能幫助用戶快速定義ETL規(guī)則。界面友好性、易操作性。(4)處理速度處理速度至少達到千行/每秒級別二、功能性需求:(1)數(shù)據(jù)轉(zhuǎn)換功能·數(shù)據(jù)抽取,即將源數(shù)據(jù)庫表抽取到目標數(shù)據(jù)庫,數(shù)據(jù)表結(jié)構(gòu)不變;·數(shù)據(jù)清洗,即整理、清洗需要轉(zhuǎn)換的源數(shù)據(jù)?!?shù)據(jù)轉(zhuǎn)換,即源數(shù)據(jù)表按照目標數(shù)據(jù)表的要求,配置

3、數(shù)據(jù)轉(zhuǎn)換邏輯算法,源數(shù)據(jù)按照配置的算法邏輯將數(shù)據(jù)插入到目標數(shù)據(jù)庫?!?shù)據(jù)校驗,即對數(shù)據(jù)庫中的數(shù)據(jù)進行完整性校驗。·數(shù)據(jù)補丁,即為了保證數(shù)據(jù)的完整性,需要對數(shù)據(jù)進行修改等操作。要求ETL工具必須對抽取到的數(shù)據(jù)能進行靈活的計算、合并、拆分等轉(zhuǎn)換操作。通常會遇到的轉(zhuǎn)換要求有:字段映射;映射的自動匹配;字段的拆分;多字段的混合運算;跨異構(gòu)數(shù)據(jù)庫的關(guān)聯(lián);自定義函數(shù);多數(shù)據(jù)類型支持;復(fù)雜條件過濾;支持臟讀;數(shù)據(jù)的批量裝載;時間類型的轉(zhuǎn)換;對各種碼表的支持;環(huán)境變量是否可以動態(tài)修改;去重復(fù)記錄;抽取斷點;記錄間合并或計算;記錄拆分;抽取的字段是否可以動態(tài)修改;行、列變換;排序;統(tǒng)計;度量

4、衡等常用的轉(zhuǎn)換函數(shù);代理主鍵的生成;調(diào)試功能;抽取遠程數(shù)據(jù);增量抽取的處理方式;制造樣品數(shù)據(jù);在轉(zhuǎn)換過程中是否支持數(shù)據(jù)比較的功能;數(shù)據(jù)預(yù)覽;性能監(jiān)控;數(shù)據(jù)清洗及標準化;按行,按列的分組聚合等。(2)管理和調(diào)度功能ETL作業(yè)調(diào)度支持多個作業(yè)的并發(fā)運行,可以限制最大運行作業(yè)數(shù);作業(yè)支持定時啟動,提供多種定時策略,包括日、周、月、工作日、時、分、秒等,通過對作業(yè)定時啟動可實現(xiàn)作業(yè)的循環(huán)自動運行;ETL作業(yè)監(jiān)控支持作業(yè)的啟動、暫停、恢復(fù)運行和停止等控制;直觀的作業(yè)執(zhí)行進度及狀態(tài)顯示;要求采用像采用多線程、分布式、負載均衡、集中管理等高性能高可靠性與易管理和擴展的多層體系架構(gòu)基本功能

5、:抽取過程的備份與恢復(fù);升級;版本管理;開發(fā)和發(fā)布;支持統(tǒng)一以及自定義的管理平臺;支持時間觸發(fā)方式;支持事件觸發(fā)方式;支持命令行執(zhí)行方式;支持用戶對計算機資源的管理和分配;負載均衡;文檔的自動生成;調(diào)度過程中能否執(zhí)行其他任務(wù)等(3)集成和開放性與OLAP集成;與前端工具集成;與建模工具集成;開放的API可將產(chǎn)品集成到統(tǒng)一界面;是否能調(diào)用各種外部應(yīng)用,包括存儲過程、各種流行語言開發(fā)的應(yīng)用程序等;是否支持客戶化定制的轉(zhuǎn)換過程;是否支持與統(tǒng)計分析工具的集成等(3)對元數(shù)據(jù)的管理元數(shù)據(jù)存儲的開放性;元數(shù)據(jù)存儲的可移植性;提供多種方式訪問元數(shù)據(jù);元數(shù)據(jù)的版本控制;支持開放的元數(shù)據(jù)標準

6、;支持XML進行元數(shù)據(jù)交換;支持分布式的元數(shù)據(jù)訪問和管理;生成元數(shù)據(jù)報表;對于ETL過程的沖突分析;基于元數(shù)據(jù)的查詢功能;元數(shù)據(jù)的廣播和重用;對于ETL過程的流程分析等。

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。