數(shù)據(jù)挖掘ppt課件.ppt

數(shù)據(jù)挖掘ppt課件.ppt

ID:50797761

大?。?58.50 KB

頁數(shù):47頁

時間:2020-03-14

數(shù)據(jù)挖掘ppt課件.ppt_第1頁
數(shù)據(jù)挖掘ppt課件.ppt_第2頁
數(shù)據(jù)挖掘ppt課件.ppt_第3頁
數(shù)據(jù)挖掘ppt課件.ppt_第4頁
數(shù)據(jù)挖掘ppt課件.ppt_第5頁
資源描述:

《數(shù)據(jù)挖掘ppt課件.ppt》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、DataMining數(shù)據(jù)挖掘1數(shù)據(jù)倉庫的設(shè)計與開發(fā)1.數(shù)據(jù)倉庫的開發(fā)過程及特點2.數(shù)據(jù)模型設(shè)計3.數(shù)據(jù)倉庫的粒度設(shè)計4.創(chuàng)建數(shù)據(jù)倉庫的基本步驟2數(shù)據(jù)倉庫的開發(fā)過程及特點1.1什么是數(shù)據(jù)倉庫1.2數(shù)據(jù)倉庫的開發(fā)過程分成哪幾個階段31.1什么是數(shù)據(jù)倉庫數(shù)據(jù)倉庫靜態(tài)數(shù)據(jù)存儲收集、整理和加工的過程41.1什么是數(shù)據(jù)倉庫有人可能會把數(shù)據(jù)倉庫簡單地理解為僅僅是一個大型的數(shù)據(jù)存儲機制,是一個靜態(tài)的概念。實際上,數(shù)據(jù)倉庫更像一個過程,這個過程涉及數(shù)據(jù)的收集、整理和加工,生成決策所需要的信息,并且最終把這些信息提供給需要這些信息的使用者,供他

2、們做出改善業(yè)務(wù)經(jīng)營的正確決策。數(shù)據(jù)倉庫的重點與要求就是能夠準確、安全、可靠地從業(yè)務(wù)系統(tǒng)中取出數(shù)據(jù),經(jīng)過加工轉(zhuǎn)換成有規(guī)律信息之后,供管理人員進行分析使用。因此數(shù)據(jù)倉庫是一個動態(tài)的概念,應該稱為數(shù)據(jù)倉庫工程(DataWarehousing)。5數(shù)據(jù)倉庫的開發(fā)過程及特點1.1什么是數(shù)據(jù)倉庫1.2數(shù)據(jù)倉庫的開發(fā)過程分成哪幾個階段61.2開發(fā)過程分成哪幾個階段71.2開發(fā)過程分成哪幾個階段分析與設(shè)計階段數(shù)據(jù)獲取階段決策支持階段維護與評估階段8分析與設(shè)計階段需求分析概念設(shè)計邏輯設(shè)計物理設(shè)計9需求分析確定決策主題域分析主題域的商業(yè)維度分析

3、支持決策的數(shù)據(jù)來源確定數(shù)據(jù)倉庫的數(shù)據(jù)量大小分析數(shù)據(jù)更新頻率確定決策分析方法10概念設(shè)計建立概念模型:對每個決策主題與屬性以及主題之間的關(guān)系用E-R圖模型表示。E-R圖將現(xiàn)實世界表示成信息世界,便利向計算機的表示形式進行轉(zhuǎn)化。11邏輯設(shè)計將概念模型E_R圖轉(zhuǎn)換成邏輯模型,即計算機表示的數(shù)據(jù)模型。數(shù)據(jù)倉庫數(shù)據(jù)模型一般采用星型模型。星型模型由事實表,維表組成。12物理設(shè)計對邏輯模型設(shè)計的數(shù)據(jù)模型確定物理存儲結(jié)構(gòu)和存取方法。數(shù)據(jù)倉庫的星型模型在計算機中仍用關(guān)系型數(shù)據(jù)庫存儲。物理數(shù)據(jù)還需要進行存儲容量的估計,確定數(shù)據(jù)存儲的計劃,確定索

4、引策略,確定數(shù)據(jù)存放位置以及確定存儲分配。131.2開發(fā)過程分成哪幾個階段分析與設(shè)計階段數(shù)據(jù)獲取階段決策支持階段維護與評估階段數(shù)據(jù)抽取數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)裝載141.2開發(fā)過程分成哪幾個階段分析與設(shè)計階段數(shù)據(jù)獲取階段決策支持階段維護與評估階段信息查詢(查詢者使用數(shù)據(jù)倉庫發(fā)現(xiàn)目前存在的問題)知識探索(發(fā)現(xiàn)問題找出原因)151.2開發(fā)過程分成哪幾個階段分析與設(shè)計階段數(shù)據(jù)獲取階段決策支持階段維護與評估階段數(shù)據(jù)倉庫增長數(shù)據(jù)倉庫維護數(shù)據(jù)倉庫評估161.數(shù)據(jù)倉庫的開發(fā)過程及特點2.數(shù)據(jù)模型設(shè)計3.數(shù)據(jù)倉庫的粒度設(shè)計4.創(chuàng)建數(shù)據(jù)倉庫的基本步驟17

5、2.數(shù)據(jù)模型設(shè)計2.1概念數(shù)據(jù)模型這是面向數(shù)據(jù)庫用戶的實現(xiàn)世界的數(shù)據(jù)模型,主要用來描述世界的概念化結(jié)構(gòu)。2.2邏輯數(shù)據(jù)模型這是用戶從數(shù)據(jù)庫所看到的數(shù)據(jù)模型,是具體的DBMS(數(shù)據(jù)庫管理系統(tǒng))所支持的數(shù)據(jù)模型.2.3物理數(shù)據(jù)模型這是描述數(shù)據(jù)在儲存介質(zhì)上的組織結(jié)構(gòu)的數(shù)據(jù)模型,它不但與具體的DBMS有關(guān),而且還與操作系統(tǒng)和硬件有關(guān)。181.數(shù)據(jù)倉庫的開發(fā)過程及特點2.數(shù)據(jù)模型設(shè)計3.數(shù)據(jù)倉庫的粒度設(shè)計4.創(chuàng)建數(shù)據(jù)倉庫的基本步驟193數(shù)據(jù)倉庫的粒度設(shè)計數(shù)據(jù)倉庫是針對面向聯(lián)機分析處理(OLAP)和數(shù)據(jù)挖掘(DM)的,因此,粒度具有兩種

6、形式:1)針對OLAP的粒度;2)針對DM的粒度;203.1針對OLAP的粒度定義:指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別。細化程度越高,粒度級越小;反之,細化越低,粒度級越高21例:感冒方劑方劑ID藥物1劑量藥物2劑量……500首處方高細節(jié)級例:每首方劑中使用藥物的種類數(shù)低細節(jié)級方劑ID藥物種類數(shù)一首方劑1個記錄粒度——細節(jié)的級別22如何選擇和劃分粒度?數(shù)據(jù)倉庫主要是分析處理的,需要處理的有細節(jié)問題也有綜合問題,所以一般把數(shù)據(jù)分為:詳細數(shù)據(jù)、輕度綜合、高度綜合三級或更多級別。不同粒度級別的數(shù)據(jù)用于不同類型的分

7、析處理。如何選擇和劃分粒度?23粒度選擇主要標準是數(shù)據(jù)倉庫表的總行數(shù)。W.H.Inmon在《BuildingtheDataWarehouse》中指出了不同數(shù)量級采用的數(shù)據(jù)粒度策略。1年內(nèi)數(shù)據(jù)量5年內(nèi)數(shù)據(jù)量數(shù)據(jù)粒度策略10000100000設(shè)計簡單1000001000000如果使用單一粒度,則需要認真設(shè)計100000010000000最好使用多級粒度1000000020000000必須使用多級粒度且認真設(shè)計24粒度劃分確定數(shù)據(jù)倉庫中數(shù)據(jù)的綜合次,比如對商品日銷售量進行綜合,可生成周、月、年銷售量等。粒度劃分的影響因素:1)要接

8、受的分析類型;直接影響數(shù)據(jù)倉庫的粒度劃分。層次越高,越不能進行細致分析。2)可接受的最低粒度;保證能夠滿足客戶的決策分析需要;3)能存儲數(shù)據(jù)的存儲容量;若存儲容量有限,則采用高粒度的數(shù)據(jù)粒度劃分策略。253.2針對DM的粒度在數(shù)據(jù)挖掘過程中,有時僅需建立分析模型,得到相對準確、能反映趨勢的

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。