資源描述:
《基于hadoop的數(shù)據(jù)挖掘在電商環(huán)境的研究與應用》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。
1、學校代號10532學號G12066036分類號密級公開工程碩士學位論文基于Hadoop的數(shù)據(jù)挖掘在電商環(huán)境的研究與應用學位申請人姓名郭釗培養(yǎng)單位軟件學院導師姓名及職稱宋懷玲教授何萬平高級工程師學科專業(yè)軟件工程研究方向信息系統(tǒng)與決策論文提交日期2016年12月學校代號:10532學號:G12066036密級:公開湖南大學工程碩士學位論文基于Hadoop的數(shù)據(jù)挖掘在電商環(huán)境的研究與應用學位申請人姓名:郭釗導師姓名及職稱:宋懷玲教授何萬平高級工程師培養(yǎng)單位:軟件學院專業(yè)名稱:軟件工程論文提交日期:2016年12月論文答辯日期:2016年12月3日答辯委員會主席:羅漢教授Researcha
2、ndApplicationofData-miningBasedonHadoopinE-commercebyGUOZhaoB.E.(ChangshaUniversity)2010AthesissubmittedinpartialsatisfactionoftheRequirementsforthedegreeofMasterofEngineeringinSoftwareEngineeringintheGraduateSchoolofHunanUniversitySupervisorProfessorSongHuailingSeniorEngineerHeWanpingDecember
3、,2016湖南大學學位論文原創(chuàng)性聲明本人鄭重聲明:所呈交的論文是本人在導師的指導下獨立進行研究所取得的研究成果。除了文中特別加標注引用的內容外,本論文不包含任何其他個人或集體己經發(fā)表或撰寫的成果作品。對本文的研究做出重要貢獻的個人和集體,均己在文中1^明確方式標明。本人完全意識到本聲明的法律后果由本人承擔。*^作者簽名:曰期:y化年〇月(曰言^學位論文版權使用授權書本學位論文作者完全了解學校有關保留、使用學位論文的規(guī)定,同意學校保留并向國家有關部n或機構送交論文的復印件和電子版,允許論文被査閱和借閱。本人授權湖南大學可W將本學位論文的全部或部
4、分內容編入有關數(shù)據(jù)庫進行檢索,可W采用影印、縮印或掃描等復制手段保存和匯編本學位論文。本學位論文屬于1、保密□,在年解密后適用本授權書。2、不保密d。請在上相應方框""內打V()>1t/f<5作者簽名日期;年月5日/之導師簽名I日:日期:如年月多節(jié)抑3基于Hadoop的數(shù)據(jù)挖掘在電商環(huán)境的研究與應用摘要隨著便攜式網絡接入設備的飛速發(fā)展以及互聯(lián)網技術的迭代更新,使得網絡生態(tài)系統(tǒng)逐漸壯大、活躍,這也使得依托于互聯(lián)網技術的電子商務發(fā)展迅速。相較于傳統(tǒng)線下的購物方式,線上電子商務無疑是一種快捷、高效和便利的購物方式。近年來井噴的電商購物平臺也很好的印證
5、了這一點。對于電子商務平臺的運營者來說,如何鞏固現(xiàn)有客戶、拓展?jié)撛诳蛻羰侵刂兄??;诨ヂ?lián)網時代快速、海量數(shù)據(jù)的特點,本文設計將數(shù)據(jù)挖掘技術應用于電商平臺數(shù)據(jù),一方面,深度發(fā)掘現(xiàn)有客戶的瀏覽、購物習慣,鞏固現(xiàn)有用戶;另一方面,分析潛在用戶行為,獲取其興趣點,進行定向推送,拓展更多的客戶?;陔娚唐脚_用戶購物數(shù)據(jù)之間存在較強的關聯(lián)性,本文設計采用關聯(lián)規(guī)則算法進行數(shù)據(jù)挖掘與分析,達到鞏固現(xiàn)有用戶,發(fā)掘新用戶的目的。數(shù)據(jù)挖掘的過程就是發(fā)現(xiàn)隱藏在各種尚沒有處理的原始數(shù)據(jù)集合中的各種相關聯(lián)系,并從這些聯(lián)系中提取知識的過程。數(shù)據(jù)挖掘是多種計算機相關學科相結合的產物,其包含了數(shù)據(jù)庫技術、計算機機
6、器自主學習、數(shù)據(jù)統(tǒng)計分析、行為模式識別、人工神經網絡等等學科。由于其具有很高的商業(yè)使用價值,同時適合應用的范圍極為廣泛,所以目前數(shù)據(jù)挖掘的相關研究已成為研究的重點之一。本文以現(xiàn)今互聯(lián)網、大數(shù)據(jù)時代下的電商平臺為切入點,對電商平臺現(xiàn)狀進行分析,得出其弊端,即無法應對大數(shù)據(jù)時代海量無序數(shù)據(jù)的沖擊,容易使平臺積累無效數(shù)據(jù),造成資源使用率低下,平臺電商有效轉化率低。其次,作者對某知名電商平臺的服飾賣家以及家電賣家進行了匿名訪談,得出了服裝買家購買物品具有較高關聯(lián)度的結論。技術上,本文基于數(shù)據(jù)挖掘技術提出了一套基于Apriori的關聯(lián)規(guī)則算法,并利用Hadoop數(shù)據(jù)庫集群進行數(shù)據(jù)處理,相較于
7、傳統(tǒng)的關系型數(shù)據(jù)庫,Hadoop集群能同時對數(shù)據(jù)進行處理,大大提高算法工作效率。本文還基于AngularJS、Bootstrap以及Html搭建了一套前端數(shù)據(jù)可視化系統(tǒng)。關鍵詞:數(shù)據(jù)挖掘;關聯(lián)規(guī)則算法;Hadoop;數(shù)據(jù)可視化工程碩士學位論文AbstractWiththedevelopmentofportablenetaccessdeviceandtherevolutionoftheInternettechnology,thenetecho-systembecomes