數(shù)據(jù)倉庫與數(shù)據(jù)挖掘

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘

ID:39711296

大?。?15.00 KB

頁數(shù):29頁

時間:2019-07-09

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘_第5頁
資源描述:

《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在教育資源-天天文庫。

1、第12章 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基本概念數(shù)據(jù)倉庫定義數(shù)據(jù)倉庫是一個面向決策主題的、集成的、時變的、非易失、以讀為主的數(shù)據(jù)集合。數(shù)據(jù)倉庫系統(tǒng)的分類Web數(shù)據(jù)倉庫;并行數(shù)據(jù)倉庫;多維數(shù)據(jù)倉庫;壓縮數(shù)據(jù)倉庫等。OLAP定義OLAP是針對某個特定的主題進行聯(lián)機數(shù)據(jù)訪問、處理和分析,通過直觀的方式從多個維度、多種數(shù)據(jù)綜合程度將系統(tǒng)的運營情況展現(xiàn)給用戶。面向決策主題的數(shù)據(jù)倉庫圍繞一些主題,排除對于決策無用的數(shù)據(jù),提供特定主體的簡明視圖。集成的構造數(shù)據(jù)倉庫是將多個異種數(shù)據(jù)源集成在一起,確保命名約定,編碼結構,屬性度量等一致性。時變的數(shù)據(jù)存儲從歷史的角度提供信息.在數(shù)據(jù)倉庫,隱式或顯式地包含時間元素

2、。非易失的數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù);由于這種分離,數(shù)據(jù)倉庫不需要事務處理,恢復和并發(fā)控制。通常數(shù)據(jù)倉庫只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。以讀為主的數(shù)據(jù)倉庫中的數(shù)據(jù)主要是提供決策進行查詢,一般不一定都需要即時更新,可以定期刷新或按需刷新。數(shù)據(jù)倉庫基本特性數(shù)據(jù)倉庫項目流程管理及系統(tǒng)性能管理和監(jiān)控OLTP數(shù)據(jù)源數(shù)據(jù)倉庫數(shù)據(jù)集市數(shù)據(jù)采集及整合數(shù)據(jù)的映射規(guī)則、模型。。。(元數(shù)據(jù)管理)數(shù)據(jù)展現(xiàn)及決策生產(chǎn)財務結算外部地區(qū)分析總量分析市場分析ETL數(shù)據(jù)分析、DM終端用戶終端用戶數(shù)據(jù)倉庫體系結構數(shù)據(jù)倉庫的結構早期細節(jié)級當前細節(jié)級輕度綜合級數(shù)據(jù)集市高度綜合級元數(shù)據(jù)操作型轉換數(shù)據(jù)倉

3、庫中的幾個重要概念ETLETL(Extract/Transformation/Load)—用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、轉換,最終按照預先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。元數(shù)據(jù)關于數(shù)據(jù)的數(shù)據(jù),指在數(shù)據(jù)倉庫建設過程中所產(chǎn)生的有關數(shù)據(jù)源定義、目標定義、轉換規(guī)則等相關的關鍵數(shù)據(jù)。同時元數(shù)據(jù)還包含關于數(shù)據(jù)含義的商業(yè)信息。DataMart數(shù)據(jù)集市--小型的,面向部門或工作組級數(shù)據(jù)倉庫。OperationDataStore操作數(shù)據(jù)存儲—ODS是能支持企業(yè)日常的全局應用的數(shù)據(jù)集合,是不同于DB的一種新的數(shù)據(jù)環(huán)境,是DW擴展后得到的一個混合形式。四個基本特點:面向主

4、題的(Subject-Oriented)、集成的、可變的、當前或接近當前的。粒度數(shù)據(jù)倉庫的數(shù)據(jù)單元中保存數(shù)據(jù)的細化或綜合程度的級別。細化程度越高,粒度級就越??;相反,細化程度越低,粒度級就越大。分割結構相同的數(shù)據(jù)可以被分成多個數(shù)據(jù)物理單元。任何給定的數(shù)據(jù)單元屬于且僅屬于一個分割。數(shù)據(jù)倉庫中的幾個重要概念(續(xù))操作數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別操作數(shù)據(jù)庫系統(tǒng)的主要任務是聯(lián)機事務處理OLTP數(shù)據(jù)倉庫在數(shù)據(jù)分析和決策方面為用戶提供服務,這種系統(tǒng)稱為聯(lián)機分析處理OLAP基本數(shù)據(jù)模式星型模式日期維表TimeIDDayMonthYear銷售事實表TimeIDProductIDRegionIDSale

5、sQuantity產(chǎn)品維表ProductIDProductNameClassIDClassNameCategoryIDCategoryName地區(qū)維表RegionDCityProvinceCountry基本數(shù)據(jù)模式(續(xù)1)雪花模式銷售事實表TimeIDProductIDRegionIDSalesQuantity日期維表TimeIDdayMonth產(chǎn)品維表ProductIDProductNameClassIDClassName地區(qū)維表RegionIDCityProvince月表MonthYear類別表ClassIDCategoryIDCategoryName省份表ProvinceC

6、ountry基本數(shù)據(jù)模式(續(xù)2)多維模型Cube(D1,D2,…,Dn,M1,M2,…,Mm)數(shù)據(jù)倉庫的主要應用信息處理支持查詢和基本的統(tǒng)計分析,并使用表或圖進行報告。分析處理支持基本的OLAP操作,在匯總的和細節(jié)的歷史數(shù)據(jù)上操作。數(shù)據(jù)挖掘支持知識發(fā)現(xiàn),包括找出隱藏的模式和關聯(lián),構造分析模型,進行分類和預測,并用可視化工具提供挖掘結果.OLAP發(fā)展背景60年代,關系數(shù)據(jù)庫之父E.F.Codd提出了關系模型,促進了聯(lián)機事務處理(OLTP)的發(fā)展(數(shù)據(jù)以表格的形式而非文件方式存儲)。1993年,E.F.Codd提出了OLAP概念,認為OLTP已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,

7、SQL對大型數(shù)據(jù)庫進行的簡單查詢也不能滿足終端用戶分析的要求。用戶的決策分析需要對關系數(shù)據(jù)庫進行大量計算才能得到結果,而查詢的結果并不能滿足決策者提出的需求。因此,E.F.Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。OLTP數(shù)據(jù)OLAP數(shù)據(jù)原始數(shù)據(jù)導出數(shù)據(jù)細節(jié)性數(shù)據(jù)綜合性和提煉性數(shù)據(jù)當前值數(shù)據(jù)歷史數(shù)據(jù)可更新不可更新,但周期性刷新一次處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大面向應用,事務驅(qū)動面向分析,分析驅(qū)動面向操作人員,支持日常操作面向決策人員,支持管理需要什么是OLAP?定義

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。