大數(shù)據(jù)環(huán)境下基于hadoop框架的數(shù)據(jù)挖掘算法的研究與實(shí)現(xiàn)

大數(shù)據(jù)環(huán)境下基于hadoop框架的數(shù)據(jù)挖掘算法的研究與實(shí)現(xiàn)

ID:20040428

大?。?1.00 KB

頁(yè)數(shù):5頁(yè)

時(shí)間:2018-10-08

大數(shù)據(jù)環(huán)境下基于hadoop框架的數(shù)據(jù)挖掘算法的研究與實(shí)現(xiàn)_第1頁(yè)
大數(shù)據(jù)環(huán)境下基于hadoop框架的數(shù)據(jù)挖掘算法的研究與實(shí)現(xiàn)_第2頁(yè)
大數(shù)據(jù)環(huán)境下基于hadoop框架的數(shù)據(jù)挖掘算法的研究與實(shí)現(xiàn)_第3頁(yè)
大數(shù)據(jù)環(huán)境下基于hadoop框架的數(shù)據(jù)挖掘算法的研究與實(shí)現(xiàn)_第4頁(yè)
大數(shù)據(jù)環(huán)境下基于hadoop框架的數(shù)據(jù)挖掘算法的研究與實(shí)現(xiàn)_第5頁(yè)
資源描述:

《大數(shù)據(jù)環(huán)境下基于hadoop框架的數(shù)據(jù)挖掘算法的研究與實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、大數(shù)據(jù)環(huán)境下基于Hadoop框架的數(shù)據(jù)挖掘算法的研究與實(shí)現(xiàn)周佩朱嫻睿何漢張毅黑龍江省財(cái)政信息中心哈爾濱市信息化建設(shè)項(xiàng)目管理中心摘要:隨著當(dāng)前科學(xué)技術(shù)的發(fā)展,我W各行業(yè)的發(fā)展進(jìn)入了大數(shù)據(jù)時(shí)代,這就為數(shù)據(jù)挖掘算法創(chuàng)造了條件。在大數(shù)據(jù)環(huán)境下,為了使數(shù)據(jù)挖掘的速度得以提高,木次研宄主要對(duì)基于Hadoop框架的數(shù)據(jù)挖掘算法進(jìn)行研究,得出由PrePost算法改進(jìn)的挖掘算法MRPrePost,這種挖掘算法是以Hadoop為平臺(tái),使編程難度得到降低,并且容易管理,通過(guò)深度優(yōu)化使內(nèi)存的開(kāi)銷(xiāo)得到降低,通過(guò)負(fù)載均衡的方法進(jìn)行分組以使并行算法的重耍性能得到提高,從而使這種算法

2、提升運(yùn)行速度,適應(yīng)大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘。關(guān)鍵詞:大數(shù)據(jù)環(huán)境;Hadoop框架;數(shù)據(jù)挖掘算法;研究;作者簡(jiǎn)介:周佩(1982—),男,山東福山人,碩士,高級(jí)工程師,研允方向?yàn)橛?jì)算機(jī)信息系統(tǒng)分析與應(yīng)用;作者簡(jiǎn)介:朱嫻睿(1978一),女,黑龍江綏化人,碩士研究生學(xué)歷,高級(jí)工程師,研宄方向?yàn)殡娮庸こ?;作者?jiǎn)介:何漢(1979—)男,黑龍江哈爾濱人,碩士研宂生學(xué)歷,高級(jí)工程師,研宄方向?yàn)橛?jì)算機(jī)應(yīng)用;作者簡(jiǎn)介:張毅(1982—)男,河北高陽(yáng)人,大學(xué)本科學(xué)歷,工程師,研究方向?yàn)橛?jì)算機(jī)軟硬件、網(wǎng)絡(luò)工程。收稿日期:2017-08-05Received:2017-08

3、-05隨著當(dāng)前一些設(shè)備走向高智能化、高存儲(chǔ)量,世界的信息量早已突破ZB級(jí)別,如此繁多的信息量已經(jīng)使我們進(jìn)入了大數(shù)據(jù)環(huán)境中,但如何使這些信息中包含的優(yōu)質(zhì)信息極其潛在價(jià)值進(jìn)行精準(zhǔn)的挖掘是當(dāng)前面臨的工作重點(diǎn)以及難點(diǎn)。數(shù)據(jù)挖掘已經(jīng)在我國(guó)開(kāi)展很多年,但這一方面的發(fā)展卻始終追逐不上信息量的暴增,目前所使用的數(shù)據(jù)挖掘算法在大數(shù)據(jù)環(huán)境下早已經(jīng)不再適用,大數(shù)據(jù)的挖掘出現(xiàn)了嚴(yán)重的滯后的現(xiàn)象,因此,在大數(shù)據(jù)環(huán)境下,掌握科學(xué)的數(shù)據(jù)挖掘算法是當(dāng)前的主要任務(wù)。本次研宂主要通過(guò)Iladoop框架對(duì)已有的算法PrePost進(jìn)行科學(xué)的改進(jìn),從而引出適合大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘算法MKPr

4、ePost,該算法具有計(jì)算快的特點(diǎn),并能夠適應(yīng)關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘,是當(dāng)前數(shù)據(jù)挖掘算法的新模式。下文將對(duì)這種數(shù)據(jù)挖掘算法進(jìn)行研宄,以實(shí)現(xiàn)對(duì)大數(shù)據(jù)環(huán)境的適應(yīng)。1相關(guān)技術(shù)的簡(jiǎn)要概述1.1關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)通過(guò)這項(xiàng)技術(shù)進(jìn)行數(shù)據(jù)挖掘的目的在于搜尋事務(wù)之間存在的內(nèi)在聯(lián)系,并且這項(xiàng)技術(shù)已在各行業(yè)中得以推廣應(yīng)用,例如當(dāng)今與我們生活息息和關(guān)的超市購(gòu)物,通過(guò)這項(xiàng)技術(shù)能夠?qū)⒔灰子涗涀鳛橐罁?jù),然后搜索相關(guān)的物品,并對(duì)顧客的購(gòu)買(mǎi)習(xí)慣進(jìn)行分析,然后根據(jù)分析的結(jié)果對(duì)貨架及庫(kù)存進(jìn)行安排,并對(duì)顧客進(jìn)行智能分類(lèi)。數(shù)據(jù)挖掘的前期準(zhǔn)備工作非常重要,首先它需要進(jìn)行最小置信度以及支持?jǐn)?shù)進(jìn)行參數(shù)設(shè)

5、置,從而使數(shù)據(jù)挖掘支持?jǐn)?shù)高于最小支持?jǐn)?shù),從而以最小置信度使有效的管理規(guī)則數(shù)據(jù)產(chǎn)生。Hadoop技術(shù)框架Hadoop作為Apache中的開(kāi)源項(xiàng)目之一,其能夠進(jìn)行提供可靠、開(kāi)源、可擴(kuò)展的分布式計(jì)算應(yīng)用工具。Iladoop的組件主要包括兩個(gè),分別為MapReduce以及HDES,這兩個(gè)組件的作用分別在于數(shù)據(jù)的計(jì)算和數(shù)據(jù)的存儲(chǔ),以下將分別介紹這兩個(gè)組件。1.2.1MapReduce組件此組件是能夠?qū)?shù)據(jù)進(jìn)行計(jì)算,屬于一種分布式的計(jì)算框架,能夠?qū)﹄x線(xiàn)大數(shù)據(jù)進(jìn)行有效的計(jì)算。并通過(guò)函數(shù)式編程這種模式,對(duì)Map函數(shù)以及Reduce函數(shù)進(jìn)行合理的利用,從而實(shí)現(xiàn)較為繁雜的

6、計(jì)算。分布式的計(jì)算框架如閣1所示。圖1MapReduce的分布式;計(jì)算框架卜載原圖1.2.2HDFS組件此組件是一種獨(dú)立形式的文件系統(tǒng),可以通過(guò)自身的存儲(chǔ)功能對(duì)MapReduce分布式計(jì)算框架進(jìn)行服務(wù),具有高可用性以及高容錯(cuò)性,以塊存儲(chǔ)作為基礎(chǔ),并通過(guò)流數(shù)據(jù)模式來(lái)進(jìn)行正常的訪(fǎng)問(wèn),一般情況下,數(shù)據(jù)節(jié)點(diǎn)具備相互備份的功能。存儲(chǔ)塊的初始人小被默認(rèn)為64M,使用者也可以根據(jù)自身的情況對(duì)其人小進(jìn)行自定義。HDFS從結(jié)構(gòu)上來(lái)講,主要包括DataNode數(shù)據(jù)存儲(chǔ)、NameNode目錄管理以及Client訪(fǎng)問(wèn)客戶(hù)端三大部分。其中DataNode主要是文件系統(tǒng)中基木的存

7、儲(chǔ)單元;NameNode主要對(duì)系統(tǒng)集群配置管理、命名空間以及復(fù)制存儲(chǔ)塊;Client主要是文件系統(tǒng)屮的一種應(yīng)用程序,IIDFS具體的結(jié)構(gòu)體系如圖2所圖2HDFS具體的結(jié)構(gòu)體系下載原圖2大數(shù)據(jù)環(huán)境下基于Hadoop框架的數(shù)據(jù)挖掘算法本文所提及的MRPrePost數(shù)據(jù)挖掘算法使以PrePost為基礎(chǔ)進(jìn)行改進(jìn)形成的,其能夠進(jìn)行關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘。次數(shù)據(jù)挖掘算法主要包含三個(gè)重要的部分,分別為統(tǒng)計(jì)頻繁的一項(xiàng)集、F-list的均勻分組以及并行挖掘頻繁模式。次算法具體的流程見(jiàn)圖3。圖3MRPrePost的流程圖下載原圖2.1統(tǒng)計(jì)頻繁的一項(xiàng)集并行計(jì)算以水平分片的方式將數(shù)

8、據(jù)庫(kù)進(jìn)行處理,以Block為各子文件進(jìn)行命名,同時(shí)使其分配至各worker節(jié)點(diǎn)之上,并將其當(dāng)做

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳,版權(quán)歸屬用戶(hù),天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。