基于hadoop的電商平臺大數(shù)據(jù)挖掘研究

基于hadoop的電商平臺大數(shù)據(jù)挖掘研究

ID:24504159

大?。?4.50 KB

頁數(shù):3頁

時間:2018-11-13

基于hadoop的電商平臺大數(shù)據(jù)挖掘研究_第1頁
基于hadoop的電商平臺大數(shù)據(jù)挖掘研究_第2頁
基于hadoop的電商平臺大數(shù)據(jù)挖掘研究_第3頁
資源描述:

《基于hadoop的電商平臺大數(shù)據(jù)挖掘研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、基于Hadoop的電商平臺大數(shù)據(jù)控掘研李蓉蓉廣東科技學(xué)院摘要:針對電商平臺大數(shù)據(jù)特點(diǎn)和電商平臺的發(fā)展需求,提出的基于Hadoop的電商平臺大數(shù)據(jù)挖掘研宂方案,描述了云計算大數(shù)據(jù)存儲技術(shù),構(gòu)建了一種電苘平臺大數(shù)據(jù)挖掘框架,對電商平臺大數(shù)據(jù)挖掘過程進(jìn)行分析,探討了兒種數(shù)據(jù)挖掘算法。關(guān)鍵詞:Hadoop;大數(shù)據(jù);數(shù)據(jù)挖掘;電子商務(wù);作者簡介:李蓉蓉(1985-),女,湖南桃江人,碩士,講師,研宂方向:軟件工程,Web應(yīng)用開發(fā)。收稿日期:2017-10-17Received:2017-10-171基于云計算的大數(shù)據(jù)存儲技術(shù)1.1Hadoop框架H

2、adoop是一個分布式并行編程開源框架,實(shí)現(xiàn)了MapReduce計算模型,允許在整個集群使用MapReduce計算模型計算機(jī)的分布式環(huán)境存儲并處理大數(shù)據(jù),可以實(shí)現(xiàn)上千臺機(jī)器的擴(kuò)展,提供本地計算和存儲。MapReduce是云計算的核心計算模式,是一種簡化的編程模式,運(yùn)用分布式運(yùn)算技術(shù),解決某類問題的開發(fā)模型。其可以自動分割問題,分割成映射(Map)和化簡(Reduce)方式。程序員可以借助Hadoop編寫程序,實(shí)現(xiàn)對海量數(shù)據(jù)的處理。此外,Hadoop還提供一個用來將數(shù)據(jù)存儲或部署到各個計算節(jié)點(diǎn)上的分布式文件系統(tǒng)及分布式數(shù)據(jù)庫。借助Hadoo

3、p框架及云計算核心技術(shù)MapReduce可以很好的處理大規(guī)模數(shù)據(jù),可以將HDFS和HBase很好的融入到云計算框架中,實(shí)現(xiàn)云計算的分布式、并行計算和存儲[1]。1.2基于云計算的海量數(shù)據(jù)存儲模型根據(jù)海量數(shù)據(jù)的特性,結(jié)合云計算技術(shù),提出基于云計算的海量數(shù)據(jù)存儲模型,如圖1所示。該模型主要由主服務(wù)器機(jī)群和存儲節(jié)點(diǎn)機(jī)群組成,配合MapReduce、HDFS和HBase等對海量數(shù)據(jù)資源的存取和控制。HDFS和HBeise用來將數(shù)據(jù)存儲或部署到各個計算節(jié)點(diǎn)上。lladoop架構(gòu)和MapReduce調(diào)度和維護(hù)數(shù)掘,避免系統(tǒng)擁塞和故障。用戶可以通過Ha

4、doop架構(gòu)直接存取節(jié)點(diǎn)進(jìn)行交互操作。圖1基于云計算的海量數(shù)據(jù)存儲模型下載原圖2電商平臺大數(shù)據(jù)挖掘框架針對電商平臺大數(shù)據(jù)特點(diǎn),數(shù)據(jù)挖掘?yàn)殡娚袒顒犹峁└杏玫闹R,更精確的信息以及更及時的響應(yīng),提出了一種電商平臺大數(shù)據(jù)挖掘框架,如圖2所示。電商平臺用戶數(shù)據(jù)挖掘框架包括六層[2]。圖2基于大數(shù)據(jù)電商平臺大數(shù)據(jù)挖掘框架下載原圖3電商平臺大數(shù)據(jù)挖掘流程電商數(shù)據(jù)是電商平臺的生命線之一。利用這些海量數(shù)據(jù)與其業(yè)務(wù)進(jìn)行關(guān)聯(lián),對用戶的消費(fèi)行為進(jìn)行分析,借助數(shù)據(jù)挖掘技術(shù),可以讓平臺更具有競爭性,從而獲取商業(yè)價值。大數(shù)據(jù)挖掘能夠主動學(xué)習(xí),通過人工職能算法和機(jī)器

5、學(xué)習(xí)方式整理和學(xué)習(xí)數(shù)據(jù)呢絨,并且將學(xué)習(xí)的內(nèi)容記憶到知識庫中,為下次學(xué)習(xí)提供基礎(chǔ),吸收海量數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘與分析。電商平臺大數(shù)據(jù)挖掘流程如圖3所示[3]。閣3電商平臺大數(shù)據(jù)挖掘流程下載原閣從電商網(wǎng)站收集用戶的數(shù)據(jù),包括瀏覽數(shù)據(jù)、消費(fèi)數(shù)據(jù)、社交數(shù)據(jù)、移動終端數(shù)據(jù)等,對數(shù)據(jù)進(jìn)行一定的分類準(zhǔn)備,通過Needlebase等工具進(jìn)行收集。把收集來的數(shù)據(jù)進(jìn)行相應(yīng)的預(yù)處理,將這種簡單、獨(dú)立的數(shù)據(jù)通過解析、清洗、重構(gòu),轉(zhuǎn)換成結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù),再對數(shù)據(jù)進(jìn)行過濾、抽取和數(shù)據(jù)融合,過濾出來一下有意義的數(shù)據(jù),從而分析各用戶群體的特點(diǎn),分析用戶個人特點(diǎn),獲得有

6、價值的知識數(shù)據(jù)。要讓知識數(shù)據(jù)體現(xiàn)價值,還需要將其進(jìn)行解釋和挖掘應(yīng)用,在數(shù)據(jù)挖掘應(yīng)用中有很多挖掘方法。4電商平臺大數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘應(yīng)用是數(shù)據(jù)挖掘方法的最后一步,通過整理完的數(shù)據(jù)可以預(yù)測電商平臺未來發(fā)展趨勢及用戶各種行為,為電商平臺提出決策性建議。從不冋的角度對數(shù)據(jù)進(jìn)行挖掘的常用方法主要有關(guān)聯(lián)規(guī)則分析、分類聚類、變化和偏差分析等。4.1關(guān)聯(lián)規(guī)則分析關(guān)聯(lián)規(guī)則分析,就是尋找數(shù)據(jù)之間的聯(lián)系,通過量化的方式衡量數(shù)據(jù)之間的關(guān)聯(lián)性??煞譃楹唵侮P(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián),為用戶在電商平臺留下的各種數(shù)據(jù)信息提供參考依據(jù)。4.2分類與聚類分析聚類分析算法中,

7、是對電子商務(wù)用戶行為進(jìn)行識別分析,如用戶的行為習(xí)慣、收益、意見、忠誠度等。根據(jù)聚類分析,將用戶數(shù)據(jù)集合根據(jù)指定的模型進(jìn)行分類,根據(jù)分類結(jié)果得出聚類對象?;诰垲惙治龇椒▋?yōu)化設(shè)計點(diǎn)子商務(wù)用戶行為識別決策,鎖定商務(wù)營銷目標(biāo)客戶,避免客戶群流失,確定營銷渠道。4.3變化和偏差分析數(shù)據(jù)挖掘中的偏差分析,是探測數(shù)據(jù)當(dāng)前現(xiàn)狀、歷史記錄,標(biāo)準(zhǔn)值之間的顯著變化和偏離,如觀測結(jié)果與期望的偏離,分類中的反常實(shí)例,模式的例外等。它可以應(yīng)用到電商平臺用戶異常信息的發(fā)現(xiàn)、分析、識別、評價和用戶流失預(yù)警等方面。5結(jié)朿語文章提出基于Hadoop的電商平臺大數(shù)據(jù)挖掘研究

8、方案,詳細(xì)描述了基于Hadoop的電商平臺大數(shù)據(jù)挖掘的關(guān)鍵技術(shù)、框架、流程和算法,通過對電商平臺的數(shù)據(jù)進(jìn)行深度分析,挖掘出用戶的行為特征、消費(fèi)習(xí)慣和興趣焦點(diǎn),讓電商平臺各參與者獲得具有極大價值

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。