數(shù)據(jù)倉庫數(shù)據(jù)挖掘?qū)嶒瀇第1頁
數(shù)據(jù)倉庫數(shù)據(jù)挖掘?qū)嶒瀇第2頁
數(shù)據(jù)倉庫數(shù)據(jù)挖掘?qū)嶒瀇第3頁
數(shù)據(jù)倉庫數(shù)據(jù)挖掘?qū)嶒瀇第4頁
數(shù)據(jù)倉庫數(shù)據(jù)挖掘?qū)嶒瀇第5頁
資源描述:

《數(shù)據(jù)倉庫數(shù)據(jù)挖掘?qū)嶒灐酚蓵T上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)W號:姓名:任課教師:朱焱二零一四年十二月.---目錄目錄1實驗1.1數(shù)據(jù)倉庫的構(gòu)建與OLAP分析11.實驗題目及實驗?zāi)康?2.實驗內(nèi)容13.實驗相關(guān)的算法原理或所設(shè)計的模型介紹14.實驗結(jié)果分析與總結(jié)25.收獲與問題分析4實驗1.2創(chuàng)建OLAP數(shù)據(jù)立方體51.實驗題目及實驗?zāi)康?2.實驗內(nèi)容53.實驗相關(guān)的算法原理或所設(shè)計的模型介紹54.實驗結(jié)果分析與總結(jié)55.收獲與問題分析6實驗1.3通過OLAP進行數(shù)據(jù)分析71.實驗題目及實驗?zāi)康?2.實驗內(nèi)容73.實驗相關(guān)的算法原理或所設(shè)計的模型介紹7

2、4.實驗結(jié)果分析與總結(jié)75.收獲與問題分析9實驗1.4/1.5“Frequent-Flyerflightsegment“信息進行數(shù)據(jù)倉儲化管理1.實驗題目及實驗?zāi)康?01.實驗題目及實驗?zāi)康念}目:“Frequent-Flyerflightsegment”信息進行數(shù)據(jù)倉儲化管理.102.實驗內(nèi)容103.實驗相關(guān)的算法原理或所設(shè)計的模型介紹所建立的數(shù)據(jù)庫模型為雪花模型,一個事實表對應(yīng)多個飛機事件,一個飛機事件對面3個機場表:起始機場、中轉(zhuǎn)機場、終點機場。雪花模型中還有時間表、顧客模型等。如圖1-13:114.實驗結(jié)果

3、分析與總結(jié)115.收獲與問題分析12實驗2.1Apriori關(guān)聯(lián)規(guī)則算法應(yīng)用實例13.---1.實驗題目及實驗?zāi)康?32.實驗內(nèi)容133.實驗相關(guān)的算法原理或所設(shè)計的模型介紹134.實驗結(jié)果分析與總結(jié)145.收獲與問題分析15實驗2.2KMeans聚類算法應(yīng)用實例161.實驗題目及實驗?zāi)康?62.實驗內(nèi)容163.實驗相關(guān)的算法原理或所設(shè)計的模型介紹164.實驗結(jié)果分析與總結(jié)175.收獲與問題分析17實驗2.3KNN分類算法應(yīng)用實例181.實驗題目及實驗?zāi)康?82.實驗內(nèi)容183.實驗相關(guān)的算法原理或所設(shè)計的模型介

4、紹184.實驗結(jié)果分析與總結(jié)185.收獲與問題分析192.4在SQLServer2008上完成上述的數(shù)據(jù)挖掘?qū)嶒?01實驗?zāi)康?02實驗內(nèi)容203實驗相關(guān)的算法原理或所涉及的模型介紹204實驗結(jié)果與總結(jié)20.---實驗1.1數(shù)據(jù)倉庫的構(gòu)建與OLAP分析1.實驗題目及實驗?zāi)康模?)熟悉SSIS工具,初步掌握數(shù)據(jù)倉庫數(shù)據(jù)的ETL過程及操作流程(2)加深對ETL(提取、轉(zhuǎn)換、加載的理解)2.實驗內(nèi)容此實例的背景是基于AdventureWorkscycle公司,該公司新增了5個銷售區(qū)域,以前這5個銷售區(qū)域的數(shù)據(jù)沒有匯總到

5、數(shù)據(jù)倉庫中,現(xiàn)在需要用到這些數(shù)據(jù),于是公司讓這5個區(qū)域的主管把客戶信息全部導(dǎo)入到一個文本文件中,命名為customers.txt。因為這幾個區(qū)域的數(shù)據(jù)完全混合在一起,而且有一些數(shù)據(jù)是無效銷售區(qū)域的數(shù)據(jù),現(xiàn)在的任務(wù)就是要通過SSIS的數(shù)據(jù)提取、轉(zhuǎn)換和加載功能把customers.txt的數(shù)據(jù)分區(qū)域?qū)霐?shù)據(jù)倉庫中,同時對于一個錯誤的數(shù)據(jù)用一個特定的文件保存起來。3.實驗相關(guān)的算法原理或所設(shè)計的模型介紹ETL(Extract-Transform-Load的縮寫,即數(shù)據(jù)抽取、轉(zhuǎn)換、裝載的過程)作為BI/DW(Busine

6、ssIntelligence)的核心和靈魂,能夠按照統(tǒng)一的規(guī)則集成并提高數(shù)據(jù)的價值,是負責完成數(shù)據(jù)從數(shù)據(jù)源向目標數(shù)據(jù)倉庫轉(zhuǎn)化的過程,是實施數(shù)據(jù)倉庫的重要步驟。ETL負責將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。ETL是數(shù)據(jù)倉庫中的非常重要的一環(huán)。它是承前啟后的必要的一步。相對于關(guān)系數(shù)據(jù)庫,數(shù)據(jù)倉庫技術(shù)沒有嚴格的數(shù)學(xué)理論基礎(chǔ),它更面向?qū)嶋H工程應(yīng)用。所以從工程應(yīng)用的角度來考慮,按著物理數(shù)據(jù)模型的要求加

7、載數(shù)據(jù)并對數(shù)據(jù)進行一些系列處理,處理過程與經(jīng)驗直接相關(guān),同時這部分的工作直接關(guān)系數(shù)據(jù)倉庫中數(shù)據(jù)的質(zhì)量,從而影響到聯(lián)機分析處理和數(shù)據(jù)挖掘的結(jié)果的質(zhì)量。數(shù)據(jù)倉庫是一個獨立的數(shù)據(jù)環(huán)境,需要通過抽取過程將數(shù)據(jù)從聯(lián)機事務(wù)處理環(huán)境、外部數(shù)據(jù)源和脫機的數(shù)據(jù)存儲介質(zhì)導(dǎo)入到數(shù)據(jù)倉庫中;在技術(shù)上,ETL主要涉及到關(guān)聯(lián)、轉(zhuǎn)換、增量、調(diào)度和監(jiān)控等幾個方面;數(shù)據(jù)倉庫系統(tǒng)中數(shù)據(jù)不要求與聯(lián)機事務(wù)處理系統(tǒng)中數(shù)據(jù)實時同步,所以ETL可以定時進行。SSIS是MicrosoftSQLServer2005IntegrationServices的簡稱,是

8、生成高性能數(shù)據(jù)集成解決方案(包括數(shù)據(jù)倉庫的提取、轉(zhuǎn)換和加載(ETL)包)的平臺。IntegrationServices包括用于生成和調(diào)試包的圖形工具和向?qū)?;用于?zhí)行工作流函數(shù)(如FTP操作)、執(zhí)行SQL語句或發(fā)送電子郵件的任務(wù);用于提取和加載數(shù)據(jù)的數(shù)據(jù)源和目標;用于清理、聚合、合并和復(fù)制數(shù)據(jù)的轉(zhuǎn)換;用于管理IntegrationServices的管理服務(wù)Integrati

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。