基于數據倉庫的數據挖掘技術分析研究解析

基于數據倉庫的數據挖掘技術分析研究解析

ID:15428122

大小:99.50 KB

頁數:11頁

時間:2018-08-03

基于數據倉庫的數據挖掘技術分析研究解析_第1頁
基于數據倉庫的數據挖掘技術分析研究解析_第2頁
基于數據倉庫的數據挖掘技術分析研究解析_第3頁
基于數據倉庫的數據挖掘技術分析研究解析_第4頁
基于數據倉庫的數據挖掘技術分析研究解析_第5頁
資源描述:

《基于數據倉庫的數據挖掘技術分析研究解析》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。

1、基于數據倉庫的數據挖掘技術分析研究摘要基于數據倉庫的數據挖掘技術是一種對數據倉庫中的數據進行深層次的加工和處理的過程,也是一種實現數據倉庫決策價值的方法和工具。文中分析了數據倉庫、數據挖掘等概念,并結合數據挖掘在實際決策支持系統(tǒng)中的應用,說明了數據挖掘的基本方法、主要過程以及發(fā)展方向。關鍵詞:倉庫,儲存,數據采集112目錄摘要錯誤!未定義書簽。目錄3引言41數據倉庫及其體系結構52基于數據倉庫的數據挖掘技術63數據挖掘在實際決策支持系統(tǒng)中的應用84.結束語9參考文獻10?11引言???隨著數據庫技術的廣泛應用,以及人們對當今社會信息的高層次需求,以事務處理為核心、

2、支持業(yè)務操作環(huán)境與平臺的數據庫技術已不能適應人們在分析和決策層次上的需要。為了有效地為企業(yè)和政府的管理與決策過程提供重要的信息,需要根據決策的需要收集來自企業(yè)內外的有關數據,并加以適當的組織處理,以形成一個綜合的面向決策的環(huán)境。1數據倉庫及其體系結構???20世紀90年代初期,W.H.Inmon在5BuildingtheDataWarehouse6一書中第一次提出了數據倉庫(DataWarehouse,簡稱DW)的概念,并將它定義為:面向主題的、集成的、與時間相關的、穩(wěn)定的數據集合。所謂面向主題,是指按主題來組織數據,按不同的決策和分析來綜合和歸并數據;所謂集成,

3、是指將來自不同數據庫中的數據進行統(tǒng)一和綜合;所謂與時間相關是指可以根據決策的需要不斷地添加一些新的數據,刪除一些舊的數據;所謂穩(wěn)定是指集成以后的數據在內容上保持較長時間的不變。???與傳統(tǒng)數據庫顯著不同的是,數據倉庫是一種服務于高層決策的數據庫,它不僅采集、組織和存儲11大量的來自地理位置分散、構造各異的信息源的數據,而且還通過對這些歷史數據的加工和變換,得到一系列用于決策分析的數據,利用這些數據可以更好地為用戶提供決策支持。其次,數據倉庫是一種面向主題的數據庫,它按主題來組織數據,按決策和分析的需要來提煉和凈化數據。另外,數據倉庫是一種包含歷史數據的數據庫,其中

4、的數據不僅用于檢索等基本操作,還用于分析整個組織的運行狀態(tài),以及未來的發(fā)展趨勢。???構建數據倉庫的關鍵是ETL(Extract,Transform,Loading)技術,即如何準確、安全、可靠地從各種不同的業(yè)務數據庫中抽取數據,并經轉換、清洗以及集成后載入數據倉庫。自數據倉庫的概念提出以后,世界上不少著名的計算機公司(如IBM,Oracle等)都紛紛對此展開深入的研究,并相繼提出各自的研究方案。雖然這些方案各有特色,但基本的框架一般都是通過數據采集和處理工具將各數據源的數據集成并載入數據倉庫(如圖1所示)。?圖1.數據倉庫基本框架圖???(1)數據源??梢詾槠胀?/p>

5、的業(yè)務數據庫,也可以是特定的數據文件或其他的數據源。???(2)數據采集和處理。負責從各數據源中抽取數據,并經轉換、集成后載入數據倉庫。???(3)數據倉庫。存儲兩類數據。一類是元數據,它是數據倉庫的基本構成單元,主要用于記錄數據的結構以及數據倉庫的變化;另一類是實視圖,它是供決策人員分析處理用的數據。11???(4)應用。主要是服務于決策的在線分析(On-LineAnalyticalProcessing,簡稱OLAP)和數據挖掘(DataMining,簡稱DM)。???由上述基本框架圖可以看出,數據倉庫不是一種軟件產品,而是一種綜合的解決方案。它將原始的數據處理

6、并轉換成服務于決策的綜合數據,并提供一組功能強大的分析工具對其進行多層次、多方位的分析處理。其次,數據倉庫要提供高質量的數據和服務,必須注意數據的一致性、完整性、準確性以及可用性。現有的數據倉庫模型未能充分考慮到這一點。通過擴展元數據庫的方式,在元數據庫中融入質量維度的質量模型,建立系統(tǒng)化的測量和提高數據質量的方法體系,可以較好地解決數據倉庫的質量問題。2基于數據倉庫的數據挖掘技術???構建數據倉庫的最終目標是為了從各類海量數據中提取出對有關決策和管理活動具有重要指導意義的規(guī)律性知識。但是,由于各類數據是分散于若干業(yè)務數據庫或其他數據源中,因此,要得到對各類決策分

7、析有用的知識,必須具有相應的從海量數據中提取價值信息的工具。數據挖掘就是用來挖掘價值信息的工具。???11數據挖掘這一概念是由G.Piatetsky-Shapior,W.J.Frawley等人在1989年8月召開的第11屆國際人工智能學術會議上提出的。它是數據庫技術和人工智能、數理統(tǒng)計等學科相結合的產物,是一個多學科相互交叉的具有廣泛應用前景的新興研究領域,并利用人工智能和數理統(tǒng)計中一些較成熟的方法和技術,如規(guī)則推理、人工神經網絡、決策樹、鄰近搜索等。因此,也有人把它稱為數據庫中的知識發(fā)現(KnowledgeDiscoveryinDatabase,簡稱KDD)。對

8、數據挖掘這

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。