第一章緒論1.1課題研究背景與意義隨著信息化時(shí)代的發(fā)展,人類的社會(huì)生產(chǎn)活動(dòng)產(chǎn)生了大量有用的數(shù)據(jù),尤其是隨著數(shù)據(jù)庫(kù)的發(fā)展和互聯(lián)網(wǎng)時(shí)代的到來(lái),導(dǎo)致了海量數(shù)據(jù)的產(chǎn)生。在這些海量數(shù)據(jù)里,隱含著有價(jià)值或">
基于spark的分布式頻繁項(xiàng)集挖掘算法研究

基于spark的分布式頻繁項(xiàng)集挖掘算法研究

ID:22282007

大?。?2.50 KB

頁(yè)數(shù):6頁(yè)

時(shí)間:2018-10-28

基于spark的分布式頻繁項(xiàng)集挖掘算法研究_第1頁(yè)
基于spark的分布式頻繁項(xiàng)集挖掘算法研究_第2頁(yè)
基于spark的分布式頻繁項(xiàng)集挖掘算法研究_第3頁(yè)
基于spark的分布式頻繁項(xiàng)集挖掘算法研究_第4頁(yè)
基于spark的分布式頻繁項(xiàng)集挖掘算法研究_第5頁(yè)
資源描述:

《基于spark的分布式頻繁項(xiàng)集挖掘算法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、基于Spark的分布式頻繁項(xiàng)集挖掘算法研究-->第一章緒論1.1課題研究背景與意義隨著信息化時(shí)代的發(fā)展,人類的社會(huì)生產(chǎn)活動(dòng)產(chǎn)生了大量有用的數(shù)據(jù),尤其是隨著數(shù)據(jù)庫(kù)的發(fā)展和互聯(lián)網(wǎng)時(shí)代的到來(lái),導(dǎo)致了海量數(shù)據(jù)的產(chǎn)生。在這些海量數(shù)據(jù)里,隱含著有價(jià)值或有潛力的信息??焖俚貜倪@些海量數(shù)據(jù)中提取有用的信息,以輔助上層決策,對(duì)國(guó)家和企業(yè)來(lái)說(shuō),都是很有意義的。有了這些信息,決策者們?cè)僖膊挥孟褚郧澳菢庸饪拷?jīng)驗(yàn)來(lái)做決策,而是多了一個(gè)可靠的參考信息。所以,如何有效地充分利用這些數(shù)據(jù),就成了國(guó)家和企業(yè)決策者們迫切關(guān)心的問(wèn)題。在這樣的大背景下,數(shù)據(jù)挖掘(DataMining,DM

2、)技術(shù)孕育而生,有時(shí)也稱之為知識(shí)發(fā)現(xiàn)(KnoazonS3等。從某種意義上講,Spark的出現(xiàn)并不是要消滅Hadoop。相反,Spark充分利用了HDFS和YARN,可以看作是為了彌補(bǔ)Hadoop的缺點(diǎn)而產(chǎn)生的。RDD(ResilientDistributedDatasets)是彈性分布式數(shù)據(jù)集的簡(jiǎn)稱,它是分布式只讀且已分區(qū)的集合對(duì)象。這些對(duì)象是彈性的,即如果數(shù)據(jù)的某部分丟失,則還可以對(duì)它們進(jìn)行重建,因此它具有自動(dòng)容錯(cuò)、位置感知調(diào)度和可伸縮性。圖2-1顯示的是Spark的體系結(jié)構(gòu)。...............2.2頻繁項(xiàng)集挖掘算法關(guān)聯(lián)規(guī)則挖掘的整個(gè)過(guò)

3、程主要分兩步來(lái)完成:第一步是找出數(shù)據(jù)庫(kù)中所有滿足最小支持度閾值的頻繁項(xiàng)集;第二步是由頻繁項(xiàng)集產(chǎn)生所有滿足最小置信度閾值的關(guān)聯(lián)規(guī)則[1]。由于關(guān)聯(lián)規(guī)則挖掘的整體性能主要是由第一步的性能所決定,因此,關(guān)聯(lián)規(guī)則挖掘的關(guān)鍵和難點(diǎn)都集中在了頻繁項(xiàng)集的挖掘上。隨著關(guān)聯(lián)分析技術(shù)的不斷發(fā)展,眾多的研究學(xué)者提出了許多優(yōu)秀的頻繁項(xiàng)集挖掘算法,包括單機(jī)(single-machine)挖掘算法、基于MPI(MessagePassingInterface)的挖掘算法、基于MapReduce的挖掘算法和基于Spark的挖掘算法,接下來(lái)分別簡(jiǎn)要介紹一些優(yōu)秀的頻繁項(xiàng)集挖掘算法。..

4、.............第三章基于Spark的分布式頻繁項(xiàng)集挖掘算法...............193.1FP-gro算法................40第六章DFPS算法在項(xiàng)目中的應(yīng)用6.1項(xiàng)目概述項(xiàng)目將主要基于SAP技術(shù),搭建SAP技術(shù)大數(shù)據(jù)應(yīng)用平臺(tái),做大數(shù)據(jù)技術(shù)的前瞻性研究和開(kāi)發(fā)應(yīng)用。利用SAP技術(shù),搭建從數(shù)據(jù)抽取、數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)應(yīng)用的大數(shù)據(jù)技術(shù)平臺(tái),對(duì)其中的技術(shù)點(diǎn)進(jìn)行前瞻性研究,同時(shí)該技術(shù)平臺(tái)可以做為培訓(xùn)和學(xué)習(xí)的操作環(huán)境,具體包括:1)基于互聯(lián)網(wǎng)大數(shù)據(jù)的采集利用甲方現(xiàn)有產(chǎn)品萬(wàn)網(wǎng)智能平臺(tái),進(jìn)行互聯(lián)網(wǎng)大數(shù)據(jù)的采集,對(duì)采集的數(shù)據(jù)進(jìn)行處理和整

5、合,做為后繼數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)挖掘的數(shù)據(jù)集;2)HANA和Hadoop的大數(shù)據(jù)多層存儲(chǔ)架構(gòu)搭建HANA和Hadoop的集成環(huán)境,實(shí)現(xiàn)大數(shù)據(jù)的分層存儲(chǔ),滿足查詢性能和存儲(chǔ)空間的平衡需求;3)基于SAPPA的數(shù)據(jù)挖掘技術(shù)基于大數(shù)據(jù)的分層存儲(chǔ),對(duì)加工好的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘技術(shù)的研究,包括預(yù)測(cè)、分類、社交網(wǎng)絡(luò)和推-->薦功能;4)基于R語(yǔ)言的數(shù)據(jù)挖掘技術(shù)集成HANA和R的環(huán)境,基于大數(shù)據(jù)以R語(yǔ)言進(jìn)行數(shù)據(jù)挖掘的探究,實(shí)現(xiàn)SAPPA同樣的功能,并對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行比對(duì)分析。...............6.2項(xiàng)目實(shí)施在項(xiàng)目的實(shí)施階段,首先,根據(jù)項(xiàng)目的具體要求,設(shè)計(jì)出一

6、個(gè)大數(shù)據(jù)研發(fā)平臺(tái),實(shí)現(xiàn)HANA和Hadoop的集成;然后,根據(jù)設(shè)計(jì)要求,搭建大數(shù)據(jù)平臺(tái)并集成HANA/Hadoop和R的環(huán)境;最后,基于SAPPA技術(shù)、R語(yǔ)言和本文的研究算法——DFPS算法,對(duì)淘寶的交易數(shù)據(jù)進(jìn)行頻繁項(xiàng)集挖掘,得到頻繁地被客戶一起購(gòu)買的商品組合。根據(jù)要求,我們需要設(shè)計(jì)一個(gè)HANA和Hadoop集成的方案,實(shí)現(xiàn)大數(shù)據(jù)的分層存儲(chǔ),滿足查詢性能和存儲(chǔ)空間的平衡需求。最終,我們?cè)O(shè)計(jì)的方案是:結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在Hive上,而非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在HDFS上,利用MapReduce計(jì)算框架,可以實(shí)現(xiàn)海量數(shù)據(jù)簡(jiǎn)單的自定義分析邏輯;由于Hadoop所擅長(zhǎng)的

7、是批處理,對(duì)于迭代計(jì)算的問(wèn)題則顯得力不從心,所以我們利用ApacheSpark來(lái)彌補(bǔ)Hadoop的不足,實(shí)現(xiàn)非實(shí)時(shí)作業(yè)的分布式迭代計(jì)算;對(duì)于實(shí)時(shí)性要求較高的作業(yè),則將這些作業(yè)移動(dòng)到HANA中完成。通過(guò)SAPHANA和Hadoop的連接器,將Hadoop上的數(shù)據(jù)抽取到HANA中,并保存在原始表里,通過(guò)計(jì)算層得到的結(jié)果則存儲(chǔ)在結(jié)果表或分析視圖中。...............總結(jié)隨著信息化時(shí)代的發(fā)展,人類逐步進(jìn)入了大數(shù)據(jù)時(shí)代,在這些海量數(shù)據(jù)里,隱含著有價(jià)值或有潛力的信息??焖俚貜倪@些海量數(shù)據(jù)中提取有用的信息,以輔助上層決策,對(duì)國(guó)家和企業(yè)來(lái)說(shuō),都是很有意義

8、的。頻繁項(xiàng)集挖掘是數(shù)據(jù)挖掘研究領(lǐng)域中的一個(gè)重要課題,它是關(guān)聯(lián)規(guī)則、因果關(guān)系、相關(guān)性分析、情節(jié)片段、序列項(xiàng)集、

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。