基于云計算數(shù)據(jù)挖掘系統(tǒng)架構(gòu)探究

基于云計算數(shù)據(jù)挖掘系統(tǒng)架構(gòu)探究

ID:46420896

大?。?0.50 KB

頁數(shù):9頁

時間:2019-11-23

基于云計算數(shù)據(jù)挖掘系統(tǒng)架構(gòu)探究_第1頁
基于云計算數(shù)據(jù)挖掘系統(tǒng)架構(gòu)探究_第2頁
基于云計算數(shù)據(jù)挖掘系統(tǒng)架構(gòu)探究_第3頁
基于云計算數(shù)據(jù)挖掘系統(tǒng)架構(gòu)探究_第4頁
基于云計算數(shù)據(jù)挖掘系統(tǒng)架構(gòu)探究_第5頁
資源描述:

《基于云計算數(shù)據(jù)挖掘系統(tǒng)架構(gòu)探究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫

1、基于云計算數(shù)據(jù)挖掘系統(tǒng)架構(gòu)探究【摘要】分析當(dāng)前數(shù)據(jù)挖掘遇到的問題以及云計算的優(yōu)勢,構(gòu)建了基于云計算的數(shù)據(jù)挖掘系統(tǒng)架構(gòu),并對其中的模塊進(jìn)行了描述。該框架有利于解決當(dāng)前數(shù)據(jù)挖掘遇到的數(shù)據(jù)復(fù)雜程度高,數(shù)據(jù)量大等問題,能夠顯著提髙數(shù)據(jù)挖掘的性能,高可信的基于云計算的數(shù)據(jù)挖掘系統(tǒng)和服務(wù)是未來的一個參考方向?!娟P(guān)鍵詞】云計算;數(shù)據(jù)挖掘;系統(tǒng)架構(gòu)1.引言云計算的概念可以追溯到上個世紀(jì)Sun和Oracle提出的“網(wǎng)絡(luò)就是計算機(jī)”。Google公司第一個把云計算作為一個概念正式提出一一云計算就是把軟件放在遠(yuǎn)程的服務(wù)器上,就像天邊的云,在

2、上網(wǎng)時才把它拿來用,平常就放在云上,有專人幫你管理[1]。要對云計算做出一個確切的定義還很困難,目前只是達(dá)成了關(guān)于云計算基本特征的共識:第一,云計算是基于互聯(lián)網(wǎng)的,是以瀏覽器為基礎(chǔ)的;第二,數(shù)據(jù)存儲和應(yīng)用在都在云端,對用戶透明,通常由第三方提供;第三,云計算強(qiáng)調(diào)服務(wù),用戶按需使用服務(wù),根據(jù)使用多少付費(fèi)[2][3]。數(shù)據(jù)挖掘,也稱知識發(fā)現(xiàn),是指通過對大量數(shù)據(jù)進(jìn)行處理分析,從中發(fā)現(xiàn)有用的規(guī)律和知識,從而加深對數(shù)據(jù)的理解,最終為決策提供服務(wù)的過程。對數(shù)據(jù)挖掘系統(tǒng)架構(gòu)的研究,國內(nèi)外主要基于數(shù)據(jù)庫系統(tǒng)展開,提出了一系列基于數(shù)據(jù)庫

3、系統(tǒng)的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)框架。主要有以下幾個部分:控制器、數(shù)據(jù)庫接口、知識庫、模式提取、知識評價。這些理論豐富了對數(shù)據(jù)文件系統(tǒng)架構(gòu)的研究,推動了數(shù)據(jù)挖掘工作的開展。但在實際操作中普遍存在數(shù)據(jù)共享性差、擴(kuò)展性低等問題[4]。本文在對云計算及數(shù)據(jù)挖掘系統(tǒng)原理分析的基礎(chǔ)上,提出了一種適應(yīng)云計算的數(shù)據(jù)挖掘系統(tǒng)架構(gòu)。一方面順應(yīng)了當(dāng)前云計算發(fā)展的趨勢,另一方面也能夠在一定程度上解決數(shù)據(jù)挖掘在實際操作中遇到的問題。1.研究背景隨著計算機(jī)技術(shù)、計算機(jī)網(wǎng)絡(luò)特別是網(wǎng)格計算與云計算的發(fā)展,越來越多的數(shù)據(jù)分布式的存儲在網(wǎng)絡(luò)中,這些數(shù)據(jù)往往是大量

4、的、復(fù)雜的、異構(gòu)的、有噪聲的,不容易被直接理解,其中蘊(yùn)含的知識也是很難被發(fā)現(xiàn)的[5]。這就給數(shù)據(jù)挖掘系統(tǒng)的實現(xiàn)帶來了三大難題:第一,這些數(shù)據(jù)的復(fù)雜程度很高,傳統(tǒng)系統(tǒng)的技術(shù)能力難以達(dá)到要求;第二,傳統(tǒng)的單機(jī)服務(wù)器所能提供的資源有限,很難滿足要求,要借助分布式計算技術(shù)來實現(xiàn)計算;第三,常用算法不足,需要研究各種數(shù)據(jù)挖掘算法的并行化策略。虛擬化是一個廣義的術(shù)語,在計算機(jī)方面通常是指計算元件在虛擬的基礎(chǔ)上而不是真實的基礎(chǔ)上運(yùn)行。虛擬化技術(shù)可以擴(kuò)大硬件的容量,把一個物理單元虛擬成多個邏輯單元,允許一個平臺同時運(yùn)行多個操作系統(tǒng),一

5、個物理單元可以運(yùn)行多個應(yīng)用。這樣,有利于資源使用效率的提高,同時也使各種資源的管理更加方便。在NIST(NationalInstituteofStandardsandTechnology,美國國家標(biāo)準(zhǔn)技術(shù)研究院)的一篇關(guān)于云計算概念的著名文檔中,共定義了云的4種模式,它們分別是:公有云、私有云、混合云和行業(yè)云。云計算的目標(biāo)是整合資源為客戶服務(wù),系統(tǒng)資源具備高性能的處理能力成為了必然要求[6][7]。云計算能夠提供動態(tài)資源池、虛擬化和高可用性的計算平臺,可被用來開發(fā)高性能應(yīng)用程序。對數(shù)據(jù)挖掘來說一方面大大降低了中小企業(yè)的

6、數(shù)據(jù)處理成本,大企業(yè)某些數(shù)據(jù)的處理也不再依賴于大型高性能機(jī)。另一方面開發(fā)方便,屏蔽掉了底層,使得大規(guī)模處理數(shù)據(jù)能力提高,提高了數(shù)據(jù)處理效率⑻。為了解決上述問題,人們提出了知識網(wǎng)格的概念,設(shè)計了一種分布式并行知識發(fā)現(xiàn)平臺框架,框架充分利用了網(wǎng)格的計算能力,解決了傳統(tǒng)數(shù)據(jù)挖掘框架計算能力不足的問題。但網(wǎng)格計算缺少商業(yè)化實現(xiàn),并且需要用戶通過編程來搭建底層架構(gòu),為系統(tǒng)的實現(xiàn)增加了難度。云計算是網(wǎng)格計算的升級,在近幾年被提出,他具有超大規(guī)模、虛擬化、高伸縮性、高可靠性、通用性強(qiáng)、高擴(kuò)展性、按需服務(wù)、易于使用等特點,可被用來搭建

7、數(shù)據(jù)挖掘系統(tǒng)解決上述問題[9]。1.基于云計算的數(shù)據(jù)挖掘系統(tǒng)架構(gòu)3.1云計算平臺目前典型的云計算平臺主要有Google的云計算平臺,亞馬遜的AmazonWebServices云計算平臺,微軟的WindowsAzure云計算服務(wù)平臺,IBM的藍(lán)云計算平臺等。一般情況下云計算平臺被解釋為如下的架構(gòu)[10],圖1所示。最下的一層是IaaS,提供CPU,網(wǎng)絡(luò),存儲等基礎(chǔ)硬件的云服務(wù)。在這一層,主要提供給用戶云存儲服務(wù)。再上一層是PaaS,提供類似于操作系統(tǒng)層次的服務(wù)與管理,比如GoogleGAE,你可以把自己寫的Java應(yīng)用(

8、或者是Python)丟在Google的GAE里運(yùn)行,GAE就像一個“云”操作系統(tǒng),對你而言,不用關(guān)心你的程序在那臺機(jī)器上運(yùn)行。最后一層是SaaS,就是我們所熟悉的軟件即服務(wù)。SaaS強(qiáng)調(diào)按需使用付費(fèi)。云計算抽象了計算與存儲資源并動態(tài)的分配給需要使用的用戶,具有高伸縮性、高可靠性、底層透明性和友好的監(jiān)控及維修接口。如圖2,在“云”上

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。