資源描述:
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在教育資源-天天文庫。
1、第12章 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘基本概念數(shù)據(jù)倉庫定義數(shù)據(jù)倉庫是一個面向決策主題的、集成的、時變的、非易失、以讀為主的數(shù)據(jù)集合。數(shù)據(jù)倉庫系統(tǒng)的分類Web數(shù)據(jù)倉庫;并行數(shù)據(jù)倉庫;多維數(shù)據(jù)倉庫;壓縮數(shù)據(jù)倉庫等。OLAP定義OLAP是針對某個特定的主題進行聯(lián)機數(shù)據(jù)訪問、處理和分析,通過直觀的方式從多個維度、多種數(shù)據(jù)綜合程度將系統(tǒng)的運營情況展現(xiàn)給用戶。面向決策主題的數(shù)據(jù)倉庫圍繞一些主題,排除對于決策無用的數(shù)據(jù),提供特定主體的簡明視圖。集成的構造數(shù)據(jù)倉庫是將多個異種數(shù)據(jù)源集成在一起,確保命名約定,編碼結構,屬性度量等一致性。時變的數(shù)據(jù)存儲從歷史的角度提供信息.在數(shù)據(jù)倉庫,隱式或顯式地包含時間元素
2、。非易失的數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù);由于這種分離,數(shù)據(jù)倉庫不需要事務處理,恢復和并發(fā)控制。通常數(shù)據(jù)倉庫只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。以讀為主的數(shù)據(jù)倉庫中的數(shù)據(jù)主要是提供決策進行查詢,一般不一定都需要即時更新,可以定期刷新或按需刷新。數(shù)據(jù)倉庫基本特性數(shù)據(jù)倉庫項目流程管理及系統(tǒng)性能管理和監(jiān)控OLTP數(shù)據(jù)源數(shù)據(jù)倉庫數(shù)據(jù)集市數(shù)據(jù)采集及整合數(shù)據(jù)的映射規(guī)則、模型。。。(元數(shù)據(jù)管理)數(shù)據(jù)展現(xiàn)及決策生產(chǎn)財務結算外部地區(qū)分析總量分析市場分析ETL數(shù)據(jù)分析、DM終端用戶終端用戶數(shù)據(jù)倉庫體系結構數(shù)據(jù)倉庫的結構早期細節(jié)級當前細節(jié)級輕度綜合級數(shù)據(jù)集市高度綜合級元數(shù)據(jù)操作型轉換數(shù)據(jù)倉
3、庫中的幾個重要概念ETLETL(Extract/Transformation/Load)—用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、轉換,最終按照預先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。元數(shù)據(jù)關于數(shù)據(jù)的數(shù)據(jù),指在數(shù)據(jù)倉庫建設過程中所產(chǎn)生的有關數(shù)據(jù)源定義、目標定義、轉換規(guī)則等相關的關鍵數(shù)據(jù)。同時元數(shù)據(jù)還包含關于數(shù)據(jù)含義的商業(yè)信息。DataMart數(shù)據(jù)集市--小型的,面向部門或工作組級數(shù)據(jù)倉庫。OperationDataStore操作數(shù)據(jù)存儲—ODS是能支持企業(yè)日常的全局應用的數(shù)據(jù)集合,是不同于DB的一種新的數(shù)據(jù)環(huán)境,是DW擴展后得到的一個混合形式。四個基本特點:面向主
4、題的(Subject-Oriented)、集成的、可變的、當前或接近當前的。粒度數(shù)據(jù)倉庫的數(shù)據(jù)單元中保存數(shù)據(jù)的細化或綜合程度的級別。細化程度越高,粒度級就越??;相反,細化程度越低,粒度級就越大。分割結構相同的數(shù)據(jù)可以被分成多個數(shù)據(jù)物理單元。任何給定的數(shù)據(jù)單元屬于且僅屬于一個分割。數(shù)據(jù)倉庫中的幾個重要概念(續(xù))操作數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別操作數(shù)據(jù)庫系統(tǒng)的主要任務是聯(lián)機事務處理OLTP數(shù)據(jù)倉庫在數(shù)據(jù)分析和決策方面為用戶提供服務,這種系統(tǒng)稱為聯(lián)機分析處理OLAP基本數(shù)據(jù)模式星型模式日期維表TimeIDDayMonthYear銷售事實表TimeIDProductIDRegionIDSale
5、sQuantity產(chǎn)品維表ProductIDProductNameClassIDClassNameCategoryIDCategoryName地區(qū)維表RegionDCityProvinceCountry基本數(shù)據(jù)模式(續(xù)1)雪花模式銷售事實表TimeIDProductIDRegionIDSalesQuantity日期維表TimeIDdayMonth產(chǎn)品維表ProductIDProductNameClassIDClassName地區(qū)維表RegionIDCityProvince月表MonthYear類別表ClassIDCategoryIDCategoryName省份表ProvinceC
6、ountry基本數(shù)據(jù)模式(續(xù)2)多維模型Cube(D1,D2,…,Dn,M1,M2,…,Mm)數(shù)據(jù)倉庫的主要應用信息處理支持查詢和基本的統(tǒng)計分析,并使用表或圖進行報告。分析處理支持基本的OLAP操作,在匯總的和細節(jié)的歷史數(shù)據(jù)上操作。數(shù)據(jù)挖掘支持知識發(fā)現(xiàn),包括找出隱藏的模式和關聯(lián),構造分析模型,進行分類和預測,并用可視化工具提供挖掘結果.OLAP發(fā)展背景60年代,關系數(shù)據(jù)庫之父E.F.Codd提出了關系模型,促進了聯(lián)機事務處理(OLTP)的發(fā)展(數(shù)據(jù)以表格的形式而非文件方式存儲)。1993年,E.F.Codd提出了OLAP概念,認為OLTP已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,
7、SQL對大型數(shù)據(jù)庫進行的簡單查詢也不能滿足終端用戶分析的要求。用戶的決策分析需要對關系數(shù)據(jù)庫進行大量計算才能得到結果,而查詢的結果并不能滿足決策者提出的需求。因此,E.F.Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。OLTP數(shù)據(jù)OLAP數(shù)據(jù)原始數(shù)據(jù)導出數(shù)據(jù)細節(jié)性數(shù)據(jù)綜合性和提煉性數(shù)據(jù)當前值數(shù)據(jù)歷史數(shù)據(jù)可更新不可更新,但周期性刷新一次處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大面向應用,事務驅(qū)動面向分析,分析驅(qū)動面向操作人員,支持日常操作面向決策人員,支持管理需要什么是OLAP?定義