基于hadoop平臺的并行數(shù)據(jù)挖掘算法工具箱與數(shù)據(jù)挖掘云

基于hadoop平臺的并行數(shù)據(jù)挖掘算法工具箱與數(shù)據(jù)挖掘云

ID:37418496

大小:619.50 KB

頁數(shù):8頁

時(shí)間:2019-05-23

基于hadoop平臺的并行數(shù)據(jù)挖掘算法工具箱與數(shù)據(jù)挖掘云_第1頁
基于hadoop平臺的并行數(shù)據(jù)挖掘算法工具箱與數(shù)據(jù)挖掘云_第2頁
基于hadoop平臺的并行數(shù)據(jù)挖掘算法工具箱與數(shù)據(jù)挖掘云_第3頁
基于hadoop平臺的并行數(shù)據(jù)挖掘算法工具箱與數(shù)據(jù)挖掘云_第4頁
基于hadoop平臺的并行數(shù)據(jù)挖掘算法工具箱與數(shù)據(jù)挖掘云_第5頁
資源描述:

《基于hadoop平臺的并行數(shù)據(jù)挖掘算法工具箱與數(shù)據(jù)挖掘云》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、基于Hadoop平臺的并行數(shù)據(jù)挖掘算法工具箱與數(shù)據(jù)挖掘云高陽,楊育彬,商琳(南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系)一基于云計(jì)算的海量數(shù)據(jù)挖掘2008年7月,《CommunicationsoftheACM》雜志發(fā)表了關(guān)于云計(jì)算的專輯,云計(jì)算因其清晰的商業(yè)模式而受到廣泛關(guān)注,并得到工業(yè)和學(xué)術(shù)界的普遍認(rèn)可。目前工業(yè)界推出的云計(jì)算平臺有Amazon公司的EC2和S3,Google公司的GoogleAppsEngine,IBM公司的BlueCloud,Microsoft公司的WindowsAzure,Salesforce公司的Sal

2、esForce,VMware公司的vCloud,Apache軟件開源組織的Hadoop等。在國內(nèi),IBM與無錫市共建了云計(jì)算中心,中石化集團(tuán)成功應(yīng)用IBM的云計(jì)算方案建立起一個(gè)企業(yè)云計(jì)算平臺。阿里巴巴集團(tuán)于2009年初在南京建立電子商務(wù)云計(jì)算中心。嚴(yán)格的講,云計(jì)算是一種新穎的商業(yè)計(jì)算模型,它可以將計(jì)算任務(wù)分布在大量互連的計(jì)算機(jī)上,使各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計(jì)算資源、存儲資源和其他服務(wù)資源。Google公司的云平臺是最具代表性的云計(jì)算技術(shù)之一,包括四個(gè)方面的主要技術(shù):Google文件系統(tǒng)GFS、并行計(jì)算模型Ma

3、pReduce、結(jié)構(gòu)化數(shù)據(jù)表BigTable和分布式的鎖管理Chubby?;谝陨霞夹g(shù),云計(jì)算可以為海量數(shù)據(jù)處理和分析提供一種高效的計(jì)算平臺。簡單來說,將海量數(shù)據(jù)分解為相同大小、分布存儲,然后采用MapReduce模型進(jìn)行并行化編程,這種技術(shù)使Google公司在搜索引擎應(yīng)用中得到了極大的成功。然而MapReduce計(jì)算模型適合結(jié)構(gòu)一致的海量數(shù)據(jù),且要求計(jì)算簡單。對于大量的數(shù)據(jù)密集型應(yīng)用(如數(shù)據(jù)挖掘任務(wù)),往往涉及到數(shù)據(jù)降維、程序迭代、近似求解等等復(fù)雜的算法,計(jì)算非常困難。因此,基于云計(jì)算的海量數(shù)據(jù)挖掘技術(shù)成為了工

4、業(yè)界和學(xué)術(shù)界共同關(guān)心的熱點(diǎn)技術(shù)之一。分布式計(jì)算是解決海量數(shù)據(jù)挖掘任務(wù),提高海量數(shù)據(jù)挖掘效率的方法之一。目前,分布式數(shù)據(jù)挖掘技術(shù)主要有基于主體(agent)的分布式數(shù)據(jù)挖掘、基于網(wǎng)格的分布式數(shù)據(jù)挖掘、基于云的分布式數(shù)據(jù)挖掘等。海量數(shù)據(jù)挖掘另一個(gè)核心問題是數(shù)據(jù)挖掘算法的并行化。圖1給出基于云計(jì)算的海量數(shù)據(jù)挖掘服務(wù)的層次結(jié)構(gòu)圖。圖1基于云計(jì)算的海量數(shù)據(jù)挖掘服務(wù)的層次結(jié)構(gòu)圖中國移動研究院從2007年3月份啟動“大云”的研發(fā)工作。2008年,中國移動研究院已建設(shè)有256個(gè)節(jié)點(diǎn)、1024個(gè)CPU、256TB存儲的云平臺。中國

5、移動“大云”平臺主要為數(shù)據(jù)挖掘、系統(tǒng)評估、搜索等應(yīng)用提供計(jì)算服務(wù)。在開源Hadoop云平臺上,中科院計(jì)算所研制了并行數(shù)據(jù)挖掘工具平臺PDMiner。針對海量數(shù)據(jù),云計(jì)算分別從數(shù)據(jù)挖掘模式和方法等方面進(jìn)行相關(guān)的研究。與此同時(shí),中科院深圳先進(jìn)研究院還研制了一個(gè)分布式數(shù)據(jù)挖掘系統(tǒng)AlphaMiner。本文首先討論了海量數(shù)據(jù)挖掘的研究熱點(diǎn);其次基于開放的Hadoop平臺,討論并行數(shù)據(jù)挖掘算法工具箱和數(shù)據(jù)挖掘云的設(shè)計(jì)。二技術(shù)熱點(diǎn)云計(jì)算是一種資源利用模式,它能以簡便的途徑和以按需的方式通過網(wǎng)絡(luò)訪問可配置的計(jì)算資源,快速部署資

6、源。在這種模式中,應(yīng)用、數(shù)據(jù)和資源以服務(wù)的方式通過網(wǎng)絡(luò)提供給用戶使用。大量的計(jì)算資源組成資源池,用于動態(tài)創(chuàng)建高度虛擬化的資源以供用戶使用。但對于海量數(shù)據(jù)分析任務(wù),云平臺缺乏針對海量數(shù)據(jù)挖掘和分析算法的并行化實(shí)現(xiàn)。因此面向海量數(shù)據(jù)挖掘的新型云計(jì)算模式,主要包括海量數(shù)據(jù)預(yù)處理、適合于云計(jì)算的海量數(shù)據(jù)挖掘并行算法、新型海量數(shù)據(jù)挖掘方法和云計(jì)算數(shù)據(jù)挖掘工具箱等技術(shù)。(1)海量數(shù)據(jù)預(yù)處理。為了適合并行處理,云平臺應(yīng)可以提供海量數(shù)據(jù)的概念分層組織以及海量數(shù)據(jù)的并行加載;并實(shí)現(xiàn)高維度約減和數(shù)據(jù)稀疏化技術(shù),提高數(shù)據(jù)管理和挖掘的效

7、率。(2)適合于云計(jì)算的海量數(shù)據(jù)挖掘并行算法。海量數(shù)據(jù)挖掘的關(guān)鍵問題是數(shù)據(jù)挖掘算法的并行化。而云計(jì)算采用MapReduce等新型計(jì)算模型,這意味著現(xiàn)有的數(shù)據(jù)挖掘算法和并行化策略不能直接應(yīng)用于云計(jì)算平臺下進(jìn)行海量數(shù)據(jù)挖掘,需要進(jìn)行一定的改造。因此需要深入研究數(shù)據(jù)挖掘算法的并行化策略,繼而實(shí)現(xiàn)高效的云計(jì)算并行海量數(shù)據(jù)挖掘算法。并行海量數(shù)據(jù)挖掘算法包括并行關(guān)聯(lián)規(guī)則算法、并行分類算法和并行聚類算法,用于分類或預(yù)測模型、數(shù)據(jù)總結(jié)、數(shù)據(jù)聚類、關(guān)聯(lián)規(guī)則、序列模式、依賴關(guān)系或依賴模型、異常和趨勢發(fā)現(xiàn)等。在此基礎(chǔ)上,針對海量數(shù)據(jù)挖

8、掘算法的特點(diǎn)對已有的云計(jì)算模型進(jìn)行優(yōu)化和擴(kuò)充,使其更適用于海量數(shù)據(jù)挖掘。(3)新型海量數(shù)據(jù)挖掘方法。新型海量數(shù)據(jù)挖掘方法包含面向同構(gòu)數(shù)據(jù)、異構(gòu)數(shù)據(jù)和跨域數(shù)據(jù)的不同的數(shù)據(jù)挖掘新方法。在同構(gòu)海量數(shù)據(jù)挖掘系統(tǒng)中,各個(gè)節(jié)點(diǎn)存儲的數(shù)據(jù)都具有相同的屬性空間。云平臺采用集成學(xué)習(xí)的方式來生成最終的全局預(yù)測模型。并在同構(gòu)節(jié)點(diǎn)的元學(xué)習(xí)基礎(chǔ)上,實(shí)現(xiàn)數(shù)據(jù)挖掘增量學(xué)習(xí)方法,已滿足實(shí)時(shí)要求;在異構(gòu)海

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時(shí)可能會顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。