大數(shù)據(jù)環(huán)境下基于hadoop框架的數(shù)據(jù)挖掘算法的研究與實(shí)現(xiàn)

ID：20040428

大?。?1.00 KB

頁(yè)數(shù)：5頁(yè)

時(shí)間：2018-10-08

大數(shù)據(jù)環(huán)境下基于hadoop框架的數(shù)據(jù)挖掘算法的研究與實(shí)現(xiàn)_第1頁(yè)

大數(shù)據(jù)環(huán)境下基于hadoop框架的數(shù)據(jù)挖掘算法的研究與實(shí)現(xiàn)_第2頁(yè)

大數(shù)據(jù)環(huán)境下基于hadoop框架的數(shù)據(jù)挖掘算法的研究與實(shí)現(xiàn)_第3頁(yè)

大數(shù)據(jù)環(huán)境下基于hadoop框架的數(shù)據(jù)挖掘算法的研究與實(shí)現(xiàn)_第4頁(yè)

大數(shù)據(jù)環(huán)境下基于hadoop框架的數(shù)據(jù)挖掘算法的研究與實(shí)現(xiàn)_第5頁(yè)

資源描述：

《大數(shù)據(jù)環(huán)境下基于hadoop框架的數(shù)據(jù)挖掘算法的研究與實(shí)現(xiàn)》由會(huì)員上傳分享，免費(fèi)在線(xiàn)閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、大數(shù)據(jù)環(huán)境下基于Hadoop框架的數(shù)據(jù)挖掘算法的研究與實(shí)現(xiàn)周佩朱嫻睿何漢張毅黑龍江省財(cái)政信息中心哈爾濱市信息化建設(shè)項(xiàng)目管理中心摘要：隨著當(dāng)前科學(xué)技術(shù)的發(fā)展，我W各行業(yè)的發(fā)展進(jìn)入了大數(shù)據(jù)時(shí)代，這就為數(shù)據(jù)挖掘算法創(chuàng)造了條件。在大數(shù)據(jù)環(huán)境下，為了使數(shù)據(jù)挖掘的速度得以提高，木次研宄主要對(duì)基于Hadoop框架的數(shù)據(jù)挖掘算法進(jìn)行研究，得出由PrePost算法改進(jìn)的挖掘算法MRPrePost,這種挖掘算法是以Hadoop為平臺(tái)，使編程難度得到降低，并且容易管理，通過(guò)深度優(yōu)化使內(nèi)存的開(kāi)銷(xiāo)得到降低，通過(guò)負(fù)載均衡的方法進(jìn)行分組以使并行算法的重耍性能得到提高，從而使這種算法

2、提升運(yùn)行速度，適應(yīng)大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘。關(guān)鍵詞：大數(shù)據(jù)環(huán)境;Hadoop框架;數(shù)據(jù)挖掘算法;研究;作者簡(jiǎn)介：周佩（1982—），男，山東福山人，碩士，高級(jí)工程師，研允方向?yàn)橛?jì)算機(jī)信息系統(tǒng)分析與應(yīng)用；作者簡(jiǎn)介：朱嫻睿（1978一），女，黑龍江綏化人，碩士研究生學(xué)歷，高級(jí)工程師，研宄方向?yàn)殡娮庸こ?；作者?jiǎn)介：何漢（1979—）男，黑龍江哈爾濱人，碩士研宂生學(xué)歷，高級(jí)工程師,研宄方向?yàn)橛?jì)算機(jī)應(yīng)用；作者簡(jiǎn)介：張毅（1982—）男，河北高陽(yáng)人，大學(xué)本科學(xué)歷，工程師，研究方向?yàn)橛?jì)算機(jī)軟硬件、網(wǎng)絡(luò)工程。收稿日期：2017-08-05Received：2017-08

3、-05隨著當(dāng)前一些設(shè)備走向高智能化、高存儲(chǔ)量，世界的信息量早已突破ZB級(jí)別，如此繁多的信息量已經(jīng)使我們進(jìn)入了大數(shù)據(jù)環(huán)境中，但如何使這些信息中包含的優(yōu)質(zhì)信息極其潛在價(jià)值進(jìn)行精準(zhǔn)的挖掘是當(dāng)前面臨的工作重點(diǎn)以及難點(diǎn)。數(shù)據(jù)挖掘已經(jīng)在我國(guó)開(kāi)展很多年，但這一方面的發(fā)展卻始終追逐不上信息量的暴增，目前所使用的數(shù)據(jù)挖掘算法在大數(shù)據(jù)環(huán)境下早已經(jīng)不再適用，大數(shù)據(jù)的挖掘出現(xiàn)了嚴(yán)重的滯后的現(xiàn)象，因此，在大數(shù)據(jù)環(huán)境下，掌握科學(xué)的數(shù)據(jù)挖掘算法是當(dāng)前的主要任務(wù)。本次研宂主要通過(guò)Iladoop框架對(duì)已有的算法PrePost進(jìn)行科學(xué)的改進(jìn)，從而引出適合大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘算法MKPr

4、ePost,該算法具有計(jì)算快的特點(diǎn)，并能夠適應(yīng)關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘，是當(dāng)前數(shù)據(jù)挖掘算法的新模式。下文將對(duì)這種數(shù)據(jù)挖掘算法進(jìn)行研宄，以實(shí)現(xiàn)對(duì)大數(shù)據(jù)環(huán)境的適應(yīng)。1相關(guān)技術(shù)的簡(jiǎn)要概述1.1關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)通過(guò)這項(xiàng)技術(shù)進(jìn)行數(shù)據(jù)挖掘的目的在于搜尋事務(wù)之間存在的內(nèi)在聯(lián)系，并且這項(xiàng)技術(shù)已在各行業(yè)中得以推廣應(yīng)用，例如當(dāng)今與我們生活息息和關(guān)的超市購(gòu)物，通過(guò)這項(xiàng)技術(shù)能夠?qū)⒔灰子涗涀鳛橐罁?jù)，然后搜索相關(guān)的物品，并對(duì)顧客的購(gòu)買(mǎi)習(xí)慣進(jìn)行分析，然后根據(jù)分析的結(jié)果對(duì)貨架及庫(kù)存進(jìn)行安排，并對(duì)顧客進(jìn)行智能分類(lèi)。數(shù)據(jù)挖掘的前期準(zhǔn)備工作非常重要，首先它需要進(jìn)行最小置信度以及支持?jǐn)?shù)進(jìn)行參數(shù)設(shè)

5、置，從而使數(shù)據(jù)挖掘支持?jǐn)?shù)高于最小支持?jǐn)?shù)，從而以最小置信度使有效的管理規(guī)則數(shù)據(jù)產(chǎn)生。Hadoop技術(shù)框架Hadoop作為Apache中的開(kāi)源項(xiàng)目之一，其能夠進(jìn)行提供可靠、開(kāi)源、可擴(kuò)展的分布式計(jì)算應(yīng)用工具。Iladoop的組件主要包括兩個(gè)，分別為MapReduce以及HDES,這兩個(gè)組件的作用分別在于數(shù)據(jù)的計(jì)算和數(shù)據(jù)的存儲(chǔ)，以下將分別介紹這兩個(gè)組件。1.2.1MapReduce組件此組件是能夠?qū)?shù)據(jù)進(jìn)行計(jì)算，屬于一種分布式的計(jì)算框架，能夠?qū)﹄x線(xiàn)大數(shù)據(jù)進(jìn)行有效的計(jì)算。并通過(guò)函數(shù)式編程這種模式，對(duì)Map函數(shù)以及Reduce函數(shù)進(jìn)行合理的利用，從而實(shí)現(xiàn)較為繁雜的

6、計(jì)算。分布式的計(jì)算框架如閣1所示。圖1MapReduce的分布式;計(jì)算框架卜載原圖1.2.2HDFS組件此組件是一種獨(dú)立形式的文件系統(tǒng)，可以通過(guò)自身的存儲(chǔ)功能對(duì)MapReduce分布式計(jì)算框架進(jìn)行服務(wù)，具有高可用性以及高容錯(cuò)性，以塊存儲(chǔ)作為基礎(chǔ)，并通過(guò)流數(shù)據(jù)模式來(lái)進(jìn)行正常的訪(fǎng)問(wèn)，一般情況下，數(shù)據(jù)節(jié)點(diǎn)具備相互備份的功能。存儲(chǔ)塊的初始人小被默認(rèn)為64M,使用者也可以根據(jù)自身的情況對(duì)其人小進(jìn)行自定義。HDFS從結(jié)構(gòu)上來(lái)講，主要包括DataNode數(shù)據(jù)存儲(chǔ)、NameNode目錄管理以及Client訪(fǎng)問(wèn)客戶(hù)端三大部分。其中DataNode主要是文件系統(tǒng)中基木的存

7、儲(chǔ)單元;NameNode主要對(duì)系統(tǒng)集群配置管理、命名空間以及復(fù)制存儲(chǔ)塊;Client主要是文件系統(tǒng)屮的一種應(yīng)用程序，IIDFS具體的結(jié)構(gòu)體系如圖2所圖2HDFS具體的結(jié)構(gòu)體系下載原圖2大數(shù)據(jù)環(huán)境下基于Hadoop框架的數(shù)據(jù)挖掘算法本文所提及的MRPrePost數(shù)據(jù)挖掘算法使以PrePost為基礎(chǔ)進(jìn)行改進(jìn)形成的，其能夠進(jìn)行關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘。次數(shù)據(jù)挖掘算法主要包含三個(gè)重要的部分，分別為統(tǒng)計(jì)頻繁的一項(xiàng)集、F-list的均勻分組以及并行挖掘頻繁模式。次算法具體的流程見(jiàn)圖3。圖3MRPrePost的流程圖下載原圖2.1統(tǒng)計(jì)頻繁的一項(xiàng)集并行計(jì)算以水平分片的方式將數(shù)

8、據(jù)庫(kù)進(jìn)行處理，以Block為各子文件進(jìn)行命名，同時(shí)使其分配至各worker節(jié)點(diǎn)之上，并將其當(dāng)做

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 5



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳，版權(quán)歸屬用戶(hù)，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。

大數(shù)據(jù)環(huán)境下基于hadoop框架的數(shù)據(jù)挖掘算法的研究與實(shí)現(xiàn)

大數(shù)據(jù)環(huán)境下基于hadoop框架的數(shù)據(jù)挖掘算法的研究與實(shí)現(xiàn)

相關(guān)文章

相關(guān)標(biāo)簽