開(kāi)源ETL系統(tǒng)研究與設(shè)計(jì)實(shí)現(xiàn)

開(kāi)源ETL系統(tǒng)研究與設(shè)計(jì)實(shí)現(xiàn)

ID:46234508

大小:672.96 KB

頁(yè)數(shù):67頁(yè)

時(shí)間:2019-11-21

開(kāi)源ETL系統(tǒng)研究與設(shè)計(jì)實(shí)現(xiàn)_第1頁(yè)
開(kāi)源ETL系統(tǒng)研究與設(shè)計(jì)實(shí)現(xiàn)_第2頁(yè)
開(kāi)源ETL系統(tǒng)研究與設(shè)計(jì)實(shí)現(xiàn)_第3頁(yè)
開(kāi)源ETL系統(tǒng)研究與設(shè)計(jì)實(shí)現(xiàn)_第4頁(yè)
開(kāi)源ETL系統(tǒng)研究與設(shè)計(jì)實(shí)現(xiàn)_第5頁(yè)
資源描述:

《開(kāi)源ETL系統(tǒng)研究與設(shè)計(jì)實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。

1、分類(lèi)培密級(jí)—UDC學(xué)拉代fQ10500碩士學(xué)位論文題目:開(kāi)源ETL系統(tǒng)研究與設(shè)計(jì)實(shí)現(xiàn)英目:OpenSourceETLSystemResearchandDesignRealization學(xué)位申請(qǐng)人姓名:張強(qiáng)申請(qǐng)學(xué)位學(xué)科專(zhuān)Jt:電力電子與電力傳動(dòng)指導(dǎo)教師姓名:張洪濤教授二00七年五月任何公司都有很多寶貴數(shù)據(jù),它們需要在網(wǎng)絡(luò)上從一個(gè)地方傳送到其他地方,這就需要對(duì)軟件的數(shù)據(jù)格式進(jìn)行必要的處理,如從一個(gè)商務(wù)軟件格式到另一種格式或數(shù)據(jù)倉(cāng)庫(kù),然后進(jìn)行分析。現(xiàn)在的問(wèn)題是,各種數(shù)據(jù)處于異質(zhì)系統(tǒng)~例如,由各種CRM(客戶尖系,CustomerRe

2、lationshipManagement)系統(tǒng)產(chǎn)生的數(shù)據(jù),可能用不同方式定義一個(gè)客戶,但需要一個(gè)系統(tǒng)平臺(tái)來(lái)統(tǒng)一確定其在后端會(huì)計(jì)系統(tǒng)是同一客戶《為了解決這個(gè)問(wèn)題,利用萃取、改造和裝載(ETL,Extract,TransformandSad)軟件?即閱讀資料、統(tǒng)一格式、清潔源數(shù)據(jù),并寫(xiě)入它的目標(biāo)開(kāi)發(fā)存儲(chǔ)庫(kù)。從多個(gè)異構(gòu)數(shù)據(jù)源獲取業(yè)務(wù)數(shù)據(jù),進(jìn)行數(shù)據(jù)清洗和轉(zhuǎn)換后,存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程,稱(chēng)為ETL過(guò)程。提取可以通過(guò)Java的數(shù)據(jù)庫(kù)提取連接技術(shù)實(shí)現(xiàn),也可以通過(guò)微軟公司的并放數(shù)據(jù)庫(kù)互連技術(shù)獲取。經(jīng)過(guò)提取、數(shù)據(jù)轉(zhuǎn)換或修改'依靠所涉及的具體業(yè)務(wù)邏

3、輯,以便它能夠被送到目標(biāo)存儲(chǔ)庫(kù)?有多種方式進(jìn)行改造,涉及的作業(yè)各有不同。數(shù)據(jù)可能僅僅需要重新格式化,但大多數(shù)的ETL也涉及清洗作業(yè),以消除備份和執(zhí)行數(shù)據(jù)一致性。E1L軟件的部分功能是用于檢查個(gè)別數(shù)據(jù)域,并且運(yùn)用規(guī)則不斷轉(zhuǎn)換源數(shù)據(jù)到目標(biāo)存儲(chǔ)庫(kù)和用程序所要求的格式。另外,ETL過(guò)程可以涉及的領(lǐng)域如下:標(biāo)準(zhǔn)化域名和地址域、核實(shí)電話號(hào)碼或其他領(lǐng)域、擴(kuò)展帶有附加字段的記錄,其中附加字段包括人口統(tǒng)計(jì)數(shù)據(jù)或來(lái)自其它系統(tǒng)的數(shù)據(jù)。本文以項(xiàng)目踏藍(lán)(TOS.TalendOpenStudio)為支撐,主要研究ETL理論及其改進(jìn),并就踏藍(lán)項(xiàng)目需求進(jìn)行E

4、TL系統(tǒng)構(gòu)架設(shè)計(jì),最后測(cè)試并達(dá)到預(yù)期。開(kāi)源ETL系統(tǒng)解決方案對(duì)于企業(yè)決策過(guò)程整合,(TOS)踏藍(lán)的解決方案是收集、處理和合并公司內(nèi)部的各種各樣不同系統(tǒng)內(nèi)的數(shù)據(jù),并且將他們傳輸至中央數(shù)據(jù)庫(kù)(數(shù)據(jù)中心)。這樣,數(shù)據(jù)能夠很容易被訪問(wèn);有效地被處理,以便更深層次的分析和報(bào)告:或者被再次輸入其它運(yùn)用處理程序。ETL-K于決策過(guò)程的中心一允許公司能夠根據(jù)其需要,清除、標(biāo)準(zhǔn)化以及轉(zhuǎn)化他們的數(shù)據(jù)。尖鍵詞:踏藍(lán)(TOS),ETL(萃取、改造和裝載),數(shù)據(jù)存儲(chǔ)庫(kù),AbstractConAaniesknowtheyhavevaluabledatal

5、yingaroundthroughouttheirnetworksthatneedstobemovedfromoneplacetoanother?suchasfromonebusinessapplicationtoanotherortoadatawarehouseforanalysis.Theonlyproblemisthattheallsortsofheterogeneoussystems,andthereforeinaSIsortsofformats.ForCRMsystemmaydefineacustomerinonew

6、aywhileaback-endaccountingsystemmaydefinethesamecustomerdifferently.Tosolvetheproblem,iuseextract,transformandload(ETL)software,whichincludesreadingdatacleaningitupandformaedngitimifomily,andthenwritingittothetargetrepositorytobeexploited.Theprocessisfromallsortsofh

7、eterogeneousdatasourceextractbusinessdata,transformandcleanse"loadtodatawarehouse.ThisprocessiscalledETL(Extraction,Transformation7^andLoad).ExtractipncanbedoneviaJavaDatabaseConnectivity,MicrosoftCoip.'sOpenDatabaseConnectivitytechnologyproprictaiycodeorbycreatingf

8、lattiles.Afterextraction,thedataistransfonncd,ormodified,dependingonthespecificbusinesslogicinvolvedsottiatitcanbesenttothetargetrepositor

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。