基于云計算數(shù)據(jù)挖掘系統(tǒng)架構探究

基于云計算數(shù)據(jù)挖掘系統(tǒng)架構探究

ID:46420896

大?。?0.50 KB

頁數(shù):9頁

時間:2019-11-23

基于云計算數(shù)據(jù)挖掘系統(tǒng)架構探究_第1頁
基于云計算數(shù)據(jù)挖掘系統(tǒng)架構探究_第2頁
基于云計算數(shù)據(jù)挖掘系統(tǒng)架構探究_第3頁
基于云計算數(shù)據(jù)挖掘系統(tǒng)架構探究_第4頁
基于云計算數(shù)據(jù)挖掘系統(tǒng)架構探究_第5頁
資源描述:

《基于云計算數(shù)據(jù)挖掘系統(tǒng)架構探究》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在工程資料-天天文庫

1、基于云計算數(shù)據(jù)挖掘系統(tǒng)架構探究【摘要】分析當前數(shù)據(jù)挖掘遇到的問題以及云計算的優(yōu)勢,構建了基于云計算的數(shù)據(jù)挖掘系統(tǒng)架構,并對其中的模塊進行了描述。該框架有利于解決當前數(shù)據(jù)挖掘遇到的數(shù)據(jù)復雜程度高,數(shù)據(jù)量大等問題,能夠顯著提髙數(shù)據(jù)挖掘的性能,高可信的基于云計算的數(shù)據(jù)挖掘系統(tǒng)和服務是未來的一個參考方向?!娟P鍵詞】云計算;數(shù)據(jù)挖掘;系統(tǒng)架構1.引言云計算的概念可以追溯到上個世紀Sun和Oracle提出的“網(wǎng)絡就是計算機”。Google公司第一個把云計算作為一個概念正式提出一一云計算就是把軟件放在遠程的服務器上,就像天邊的云,在

2、上網(wǎng)時才把它拿來用,平常就放在云上,有專人幫你管理[1]。要對云計算做出一個確切的定義還很困難,目前只是達成了關于云計算基本特征的共識:第一,云計算是基于互聯(lián)網(wǎng)的,是以瀏覽器為基礎的;第二,數(shù)據(jù)存儲和應用在都在云端,對用戶透明,通常由第三方提供;第三,云計算強調(diào)服務,用戶按需使用服務,根據(jù)使用多少付費[2][3]。數(shù)據(jù)挖掘,也稱知識發(fā)現(xiàn),是指通過對大量數(shù)據(jù)進行處理分析,從中發(fā)現(xiàn)有用的規(guī)律和知識,從而加深對數(shù)據(jù)的理解,最終為決策提供服務的過程。對數(shù)據(jù)挖掘系統(tǒng)架構的研究,國內(nèi)外主要基于數(shù)據(jù)庫系統(tǒng)展開,提出了一系列基于數(shù)據(jù)庫

3、系統(tǒng)的數(shù)據(jù)挖掘系統(tǒng)結構框架。主要有以下幾個部分:控制器、數(shù)據(jù)庫接口、知識庫、模式提取、知識評價。這些理論豐富了對數(shù)據(jù)文件系統(tǒng)架構的研究,推動了數(shù)據(jù)挖掘工作的開展。但在實際操作中普遍存在數(shù)據(jù)共享性差、擴展性低等問題[4]。本文在對云計算及數(shù)據(jù)挖掘系統(tǒng)原理分析的基礎上,提出了一種適應云計算的數(shù)據(jù)挖掘系統(tǒng)架構。一方面順應了當前云計算發(fā)展的趨勢,另一方面也能夠在一定程度上解決數(shù)據(jù)挖掘在實際操作中遇到的問題。1.研究背景隨著計算機技術、計算機網(wǎng)絡特別是網(wǎng)格計算與云計算的發(fā)展,越來越多的數(shù)據(jù)分布式的存儲在網(wǎng)絡中,這些數(shù)據(jù)往往是大量

4、的、復雜的、異構的、有噪聲的,不容易被直接理解,其中蘊含的知識也是很難被發(fā)現(xiàn)的[5]。這就給數(shù)據(jù)挖掘系統(tǒng)的實現(xiàn)帶來了三大難題:第一,這些數(shù)據(jù)的復雜程度很高,傳統(tǒng)系統(tǒng)的技術能力難以達到要求;第二,傳統(tǒng)的單機服務器所能提供的資源有限,很難滿足要求,要借助分布式計算技術來實現(xiàn)計算;第三,常用算法不足,需要研究各種數(shù)據(jù)挖掘算法的并行化策略。虛擬化是一個廣義的術語,在計算機方面通常是指計算元件在虛擬的基礎上而不是真實的基礎上運行。虛擬化技術可以擴大硬件的容量,把一個物理單元虛擬成多個邏輯單元,允許一個平臺同時運行多個操作系統(tǒng),一

5、個物理單元可以運行多個應用。這樣,有利于資源使用效率的提高,同時也使各種資源的管理更加方便。在NIST(NationalInstituteofStandardsandTechnology,美國國家標準技術研究院)的一篇關于云計算概念的著名文檔中,共定義了云的4種模式,它們分別是:公有云、私有云、混合云和行業(yè)云。云計算的目標是整合資源為客戶服務,系統(tǒng)資源具備高性能的處理能力成為了必然要求[6][7]。云計算能夠提供動態(tài)資源池、虛擬化和高可用性的計算平臺,可被用來開發(fā)高性能應用程序。對數(shù)據(jù)挖掘來說一方面大大降低了中小企業(yè)的

6、數(shù)據(jù)處理成本,大企業(yè)某些數(shù)據(jù)的處理也不再依賴于大型高性能機。另一方面開發(fā)方便,屏蔽掉了底層,使得大規(guī)模處理數(shù)據(jù)能力提高,提高了數(shù)據(jù)處理效率⑻。為了解決上述問題,人們提出了知識網(wǎng)格的概念,設計了一種分布式并行知識發(fā)現(xiàn)平臺框架,框架充分利用了網(wǎng)格的計算能力,解決了傳統(tǒng)數(shù)據(jù)挖掘框架計算能力不足的問題。但網(wǎng)格計算缺少商業(yè)化實現(xiàn),并且需要用戶通過編程來搭建底層架構,為系統(tǒng)的實現(xiàn)增加了難度。云計算是網(wǎng)格計算的升級,在近幾年被提出,他具有超大規(guī)模、虛擬化、高伸縮性、高可靠性、通用性強、高擴展性、按需服務、易于使用等特點,可被用來搭建

7、數(shù)據(jù)挖掘系統(tǒng)解決上述問題[9]。1.基于云計算的數(shù)據(jù)挖掘系統(tǒng)架構3.1云計算平臺目前典型的云計算平臺主要有Google的云計算平臺,亞馬遜的AmazonWebServices云計算平臺,微軟的WindowsAzure云計算服務平臺,IBM的藍云計算平臺等。一般情況下云計算平臺被解釋為如下的架構[10],圖1所示。最下的一層是IaaS,提供CPU,網(wǎng)絡,存儲等基礎硬件的云服務。在這一層,主要提供給用戶云存儲服務。再上一層是PaaS,提供類似于操作系統(tǒng)層次的服務與管理,比如GoogleGAE,你可以把自己寫的Java應用(

8、或者是Python)丟在Google的GAE里運行,GAE就像一個“云”操作系統(tǒng),對你而言,不用關心你的程序在那臺機器上運行。最后一層是SaaS,就是我們所熟悉的軟件即服務。SaaS強調(diào)按需使用付費。云計算抽象了計算與存儲資源并動態(tài)的分配給需要使用的用戶,具有高伸縮性、高可靠性、底層透明性和友好的監(jiān)控及維修接口。如圖2,在“云”上

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。