基于 Hadoop的Apriori算法與實(shí)現(xiàn).pdf

ID：55782974

大?。?.01 MB

頁數(shù)：5頁

時(shí)間：2020-06-01

基于 Hadoop的Apriori算法與實(shí)現(xiàn).pdf_第1頁

基于 Hadoop的Apriori算法與實(shí)現(xiàn).pdf_第2頁

基于 Hadoop的Apriori算法與實(shí)現(xiàn).pdf_第3頁

基于 Hadoop的Apriori算法與實(shí)現(xiàn).pdf_第4頁

基于 Hadoop的Apriori算法與實(shí)現(xiàn).pdf_第5頁

資源描述：

《基于 Hadoop的Apriori算法與實(shí)現(xiàn).pdf》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、第３４卷第３期桂林理工大學(xué)學(xué)報(bào)Ｖｏｌ３４Ｎｏ３２０１４年８月ＪｏｕｒｎａｌｏｆＧｕｉｌｉｎＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙＡｕｇ２０１４文章編號(hào)：１６７４－９０５７（２０１４）０３－０５８４－０５ｄｏｉ：１０３９６９／ｊ．ｉｓｓｎ１６７４－９０５７２０１４０３０３０基于Ｈａｄｏｏｐ的Ａｐｒｉｏｒｉ算法與實(shí)現(xiàn)ａｂｂｂ孫趙旭，謝曉蘭，周國清，倪金生，胡莘（桂林理工大學(xué)ａ信息科學(xué)與工程學(xué)院；ｂ廣西空間信息與測(cè)繪重點(diǎn)實(shí)驗(yàn)室，廣西桂林

2、５４１００４）摘要：針對(duì)傳統(tǒng)Ａｐｒｉｏｎ數(shù)據(jù)挖掘算法平臺(tái)的硬件瓶頸以及算法運(yùn)算耗時(shí)、需要重復(fù)掃描數(shù)據(jù)庫等缺點(diǎn)，提出了一種基于Ｈａｄｏｏｐ平臺(tái)應(yīng)用ＭａｐＲｅｄｕｃｅ模型與Ｈｂａｓｅ，對(duì)Ａｐｒｉｏｒｉ進(jìn)行云端的遷移和優(yōu)化的算法，并與其他的改進(jìn)Ａｐｒｉｏｒｉ算法進(jìn)行了分析與比較。實(shí)驗(yàn)結(jié)果表明：新的云端算法降低了時(shí)間復(fù)雜度，使其可以更好的進(jìn)行數(shù)據(jù)處理。關(guān)鍵詞：數(shù)據(jù)挖掘；云計(jì)算；Ｈａｄｏｏｐ；Ｈｂａｓｅ；ＭａｐＲｅｄｕｃｅ；Ａｐｒｉｏｒｉ中圖分類號(hào)：ＴＰ３９３；ＴＰ３１１１３文獻(xiàn)標(biāo)志碼：Ａ目前，傳統(tǒng)的數(shù)據(jù)挖掘模型已不適用于多維其中運(yùn)用最多的就是大名鼎鼎的

3、ＨＤＦＳ（ｈａｄｏｏｐ［４］度、多噪聲的海量ＧＩＳ數(shù)據(jù)，由于傳統(tǒng)的挖掘平ｄｉｓｔｒｉｂｕｔｅｄｆｉｌｅｓｙｓｔｅｍ）、ＭａｐＲｅｄｕｃｅ和Ｈｂａｓｅ，臺(tái)自身在計(jì)算處理能力上具有局限性，同時(shí)，平這３項(xiàng)組成了Ｈａｄｏｏｐ的技術(shù)架構(gòu)（圖１）。臺(tái)在硬件方面遇到瓶頸，而在挖掘算法方面又遇［１］到軟件性能制約，因此，研究一種新的ＧＩＳ海量數(shù)據(jù)的挖掘平臺(tái)和高效的數(shù)據(jù)挖掘?qū)崿F(xiàn)模型是當(dāng)前急需解決的問題。云計(jì)算和新的并行編程模［２］式ＭａｐＲｅｄｕｃｅ的出現(xiàn)，為上述問題的解決提供圖１Ｈａｄｏｏｐ的技術(shù)架構(gòu)了基礎(chǔ)。云計(jì)算具有快速與彈性的資源配給的特Ｆｉｇ１Ｔｅｃｈｎ

4、ｉｃａｌａｒｃｈｉｔｅｃｔｕｒｅｆｏｒＨａｄｏｏｐ點(diǎn)，這為數(shù)據(jù)處理帶來了新型低成本計(jì)算環(huán)境，可以很容易組建一個(gè)有著強(qiáng)大計(jì)算能力的平臺(tái)，ＭａｐＲｅｄｕｃｅ的主要思想是從函數(shù)式編程語言［３］為海量數(shù)據(jù)分析提供強(qiáng)大的計(jì)算力。里借鑒來的，它包含２個(gè)重要函數(shù)：Ｍａｐ（映射）函數(shù)和Ｒｅｄｕｃｅ（化簡(jiǎn)）函數(shù)。Ｍａｐ函數(shù)由用戶自１Ｈａｄｏｏｐ平臺(tái)、Ｈｂａｓｅ以及Ａｐｒｉｏｒｉ算法己定義，它接受一個(gè)輸入對(duì)，之后會(huì)生成一個(gè)中１１Ｈａｄｏｏｐ簡(jiǎn)介間的ＫｅｙＶａｌｕｅ對(duì)集，之后ＭａｐＲｅｄｕｃｅ庫會(huì)把其中Ｈａｄｏｏｐ是Ａｐａｃｈｅ軟件基金會(huì)開發(fā)的、開源分具有相同的Ｋ

5、ｅｙ的中間值Ｃｏｍｂｉｎｅ（連接）在一布式基礎(chǔ)系統(tǒng)架構(gòu)，它的特點(diǎn)是可以使分布式計(jì)起，之后再傳遞給Ｒｅｄｕｃｅ函數(shù)（它也是用戶自定算平臺(tái)的開發(fā)更加容易，使其方便并行處理大規(guī)義的）。Ｒｅｄｕｃｅ函數(shù)會(huì)接受中間Ｋｅｙ和其相關(guān)的模數(shù)據(jù)。它使用Ｊａｖａ語言進(jìn)行開發(fā)，可以廣泛地Ｖａｌｕｅ集，再將其合并Ｖａｌｕｅ使之成為更小的Ｖａｌｕｅ移植到各種軟硬件平臺(tái)上。Ｈａｄｏｏｐ的子項(xiàng)目眾多，集。收稿日期：２０１３－０３－１６基金項(xiàng)目：國家高技術(shù)研究發(fā)展計(jì)劃項(xiàng)目（２０１３ＡＡ１２Ａ４０２）；廣西自然科學(xué)基金項(xiàng)目（２０１３ｊｊＡＡ７０１２４）；廣西空間信息與測(cè)繪重點(diǎn)實(shí)驗(yàn)

6、室基金項(xiàng)目（桂科能１１０３１０８－２５；桂科能１２０７１１５－１３）作者簡(jiǎn)介：孫趙旭（１９８７—），男，碩士，研究方向：云計(jì)算。通訊作者：謝曉蘭，博士，教授，ｘｉｅ＿ｘｉａｏ＿ｌａｎ＠ｆｏｘｍａｉｌｃｏｍ。引文格式：孫趙旭，謝曉蘭，周國清，等．基于Ｈａｄｏｏｐ的Ａｐｒｉｏｒｉ算法與實(shí)現(xiàn)［Ｊ］．桂林理工大學(xué)學(xué)報(bào)，２０１４，３４（３）：５８４－５８８．第３期孫趙旭等：基于Ｈａｄｏｏｐ的Ａｐｒｉｏｒｉ算法與實(shí)現(xiàn)５８５１２ＨＢａｓｅ最小置信度的規(guī)則才被留下來。為了生成所有頻ＨＢａｓｅ是一個(gè)分布式的存儲(chǔ)系統(tǒng)，可以很容易集，使用了遞歸的方法。但是，Ａｐｒ

7、ｉｏｒｉ算法有兩在廉價(jià)ＰＣ上搭建大規(guī)模存儲(chǔ)系統(tǒng)，用于存儲(chǔ)海量大缺點(diǎn)，即可能產(chǎn)生大量的候選集、需要重復(fù)掃數(shù)據(jù)，這使得ＨＢａｓｅ適合于作為站點(diǎn)數(shù)據(jù)統(tǒng)計(jì)工描數(shù)據(jù)庫。而建立在Ｈａｄｏｏｐ上的ＭａｐＲｅｄｕｃｅ和［５］具的存儲(chǔ)系統(tǒng)。類似于ＨＤＦＳＦｉｌｅ和Ｂｌｏｃｋ的關(guān)Ｈｂａｓｅ恰好可以將其完美的解決：Ａｐｒｉｏｒｉ算法可以系，ＨＢａｓｅ提供了配套的ＴａｂｌｅＩｎｐｕｔＦｏｒｍａｔ和Ｔａｂ充分利用Ｈｂａｓｅ的云存儲(chǔ)機(jī)制高速、準(zhǔn)確的訪問ｌｅＯｕｔｐｕｔＦｏｒｍａｔＡＰＩ，可以方便的將ＨＢａｓｅＴａｂｌｅ作數(shù)據(jù)庫，ＭａｐＲｅｄｕｃｅ模型使算法具有更好的性能為

8、ＨａｄｏｏｐＭａｐＲｅｄｕｃｅ的Ｓｏｕｒｃｅ和Ｓｉｎｋ。因此，在和延展性。ＨＢａｓｅ系統(tǒng)上運(yùn)行批處理運(yùn)算，最方便和實(shí)用的模２ＭａｐＲｅｄ

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 5



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于 Hadoop的Apriori算法與實(shí)現(xiàn).pdf

基于 Hadoop的Apriori算法與實(shí)現(xiàn).pdf

相關(guān)文章

相關(guān)標(biāo)簽