基于 Hadoop的Apriori算法與實(shí)現(xiàn).pdf

基于 Hadoop的Apriori算法與實(shí)現(xiàn).pdf

ID:55782974

大?。?.01 MB

頁數(shù):5頁

時(shí)間:2020-06-01

基于 Hadoop的Apriori算法與實(shí)現(xiàn).pdf_第1頁
基于 Hadoop的Apriori算法與實(shí)現(xiàn).pdf_第2頁
基于 Hadoop的Apriori算法與實(shí)現(xiàn).pdf_第3頁
基于 Hadoop的Apriori算法與實(shí)現(xiàn).pdf_第4頁
基于 Hadoop的Apriori算法與實(shí)現(xiàn).pdf_第5頁
資源描述:

《基于 Hadoop的Apriori算法與實(shí)現(xiàn).pdf》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、第34卷第3期桂林理工大學(xué)學(xué)報(bào)Vol34No32014年8月JournalofGuilinUniversityofTechnologyAug2014文章編號(hào):1674-9057(2014)03-0584-05doi:103969/j.issn1674-9057201403030基于Hadoop的Apriori算法與實(shí)現(xiàn)abbb孫趙旭,謝曉蘭,周國清,倪金生,胡莘(桂林理工大學(xué)a信息科學(xué)與工程學(xué)院;b廣西空間信息與測(cè)繪重點(diǎn)實(shí)驗(yàn)室,廣西桂林

2、541004)摘要:針對(duì)傳統(tǒng)Aprion數(shù)據(jù)挖掘算法平臺(tái)的硬件瓶頸以及算法運(yùn)算耗時(shí)、需要重復(fù)掃描數(shù)據(jù)庫等缺點(diǎn),提出了一種基于Hadoop平臺(tái)應(yīng)用MapReduce模型與Hbase,對(duì)Apriori進(jìn)行云端的遷移和優(yōu)化的算法,并與其他的改進(jìn)Apriori算法進(jìn)行了分析與比較。實(shí)驗(yàn)結(jié)果表明:新的云端算法降低了時(shí)間復(fù)雜度,使其可以更好的進(jìn)行數(shù)據(jù)處理。關(guān)鍵詞:數(shù)據(jù)挖掘;云計(jì)算;Hadoop;Hbase;MapReduce;Apriori中圖分類號(hào):TP393;TP31113文獻(xiàn)標(biāo)志碼:A目前,傳統(tǒng)的數(shù)據(jù)挖掘模型已不適用于多維其中運(yùn)用最多的就是大名鼎鼎的

3、HDFS(hadoop[4]度、多噪聲的海量GIS數(shù)據(jù),由于傳統(tǒng)的挖掘平distributedfilesystem)、MapReduce和Hbase,臺(tái)自身在計(jì)算處理能力上具有局限性,同時(shí),平這3項(xiàng)組成了Hadoop的技術(shù)架構(gòu)(圖1)。臺(tái)在硬件方面遇到瓶頸,而在挖掘算法方面又遇[1]到軟件性能制約,因此,研究一種新的GIS海量數(shù)據(jù)的挖掘平臺(tái)和高效的數(shù)據(jù)挖掘?qū)崿F(xiàn)模型是當(dāng)前急需解決的問題。云計(jì)算和新的并行編程模[2]式MapReduce的出現(xiàn),為上述問題的解決提供圖1Hadoop的技術(shù)架構(gòu)了基礎(chǔ)。云計(jì)算具有快速與彈性的資源配給的特Fig1Techn

4、icalarchitectureforHadoop點(diǎn),這為數(shù)據(jù)處理帶來了新型低成本計(jì)算環(huán)境,可以很容易組建一個(gè)有著強(qiáng)大計(jì)算能力的平臺(tái),MapReduce的主要思想是從函數(shù)式編程語言[3]為海量數(shù)據(jù)分析提供強(qiáng)大的計(jì)算力。里借鑒來的,它包含2個(gè)重要函數(shù):Map(映射)函數(shù)和Reduce(化簡(jiǎn))函數(shù)。Map函數(shù)由用戶自1Hadoop平臺(tái)、Hbase以及Apriori算法己定義,它接受一個(gè)輸入對(duì),之后會(huì)生成一個(gè)中11Hadoop簡(jiǎn)介間的KeyValue對(duì)集,之后MapReduce庫會(huì)把其中Hadoop是Apache軟件基金會(huì)開發(fā)的、開源分具有相同的K

5、ey的中間值Combine(連接)在一布式基礎(chǔ)系統(tǒng)架構(gòu),它的特點(diǎn)是可以使分布式計(jì)起,之后再傳遞給Reduce函數(shù)(它也是用戶自定算平臺(tái)的開發(fā)更加容易,使其方便并行處理大規(guī)義的)。Reduce函數(shù)會(huì)接受中間Key和其相關(guān)的模數(shù)據(jù)。它使用Java語言進(jìn)行開發(fā),可以廣泛地Value集,再將其合并Value使之成為更小的Value移植到各種軟硬件平臺(tái)上。Hadoop的子項(xiàng)目眾多,集。收稿日期:2013-03-16基金項(xiàng)目:國家高技術(shù)研究發(fā)展計(jì)劃項(xiàng)目(2013AA12A402);廣西自然科學(xué)基金項(xiàng)目(2013jjAA70124);廣西空間信息與測(cè)繪重點(diǎn)實(shí)驗(yàn)

6、室基金項(xiàng)目(桂科能1103108-25;桂科能1207115-13)作者簡(jiǎn)介:孫趙旭(1987—),男,碩士,研究方向:云計(jì)算。通訊作者:謝曉蘭,博士,教授,xie_xiao_lan@foxmailcom。引文格式:孫趙旭,謝曉蘭,周國清,等.基于Hadoop的Apriori算法與實(shí)現(xiàn)[J].桂林理工大學(xué)學(xué)報(bào),2014,34(3):584-588.第3期孫趙旭等:基于Hadoop的Apriori算法與實(shí)現(xiàn)58512HBase最小置信度的規(guī)則才被留下來。為了生成所有頻HBase是一個(gè)分布式的存儲(chǔ)系統(tǒng),可以很容易集,使用了遞歸的方法。但是,Apr

7、iori算法有兩在廉價(jià)PC上搭建大規(guī)模存儲(chǔ)系統(tǒng),用于存儲(chǔ)海量大缺點(diǎn),即可能產(chǎn)生大量的候選集、需要重復(fù)掃數(shù)據(jù),這使得HBase適合于作為站點(diǎn)數(shù)據(jù)統(tǒng)計(jì)工描數(shù)據(jù)庫。而建立在Hadoop上的MapReduce和[5]具的存儲(chǔ)系統(tǒng)。類似于HDFSFile和Block的關(guān)Hbase恰好可以將其完美的解決:Apriori算法可以系,HBase提供了配套的TableInputFormat和Tab充分利用Hbase的云存儲(chǔ)機(jī)制高速、準(zhǔn)確的訪問leOutputFormatAPI,可以方便的將HBaseTable作數(shù)據(jù)庫,MapReduce模型使算法具有更好的性能為

8、HadoopMapReduce的Source和Sink。因此,在和延展性。HBase系統(tǒng)上運(yùn)行批處理運(yùn)算,最方便和實(shí)用的模2MapRed

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。