資源描述:
《數(shù)據(jù)分類技術(shù)研究及在大數(shù)據(jù)平臺(tái)上的應(yīng)用-畢業(yè)論文.doc》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、畢業(yè)設(shè)計(jì)(論文)設(shè)計(jì)(論文)題目:數(shù)據(jù)分類技術(shù)研究及 在大數(shù)據(jù)平臺(tái)上的應(yīng)用學(xué)生姓名:指導(dǎo)教師:二級(jí)學(xué)院:軟件工程學(xué)院專 業(yè):軟件工程班 級(jí):學(xué) 號(hào):提交日期:2016年5月13日答辯日期:2016年5月21日金陵科技學(xué)院學(xué)士學(xué)位論文目錄目錄摘要IIIAbstractIV第1章緒論11.1選題依據(jù)及意義11.2國(guó)內(nèi)外研究現(xiàn)狀21.3存在的問題21.4本文研究?jī)?nèi)容21.5論文結(jié)構(gòu)3第2章相關(guān)技術(shù)42.1數(shù)據(jù)挖掘42.1.1數(shù)據(jù)挖掘的基本任務(wù)42.1.2數(shù)據(jù)挖掘的基本技術(shù)42.1.3數(shù)據(jù)挖掘技術(shù)實(shí)
2、施步驟52.2數(shù)據(jù)分類62.2.1分類過程62.2.2分類性能評(píng)估指標(biāo)62.2.3主要分類算法概述72.3大數(shù)據(jù)核心技術(shù)Spark82.3.1Spark簡(jiǎn)介82.3.2Spark的依賴92.3.3Spark架構(gòu)102.3.4Spark運(yùn)行邏輯112.3.5SparkOnYARN112.3.6SparkMLlib122.4本章總結(jié)13第3章分類算法的研究與實(shí)現(xiàn)15V金陵科技學(xué)院學(xué)士學(xué)位論文目錄3.1分類算法研究153.1.1支持向量機(jī)153.1.2邏輯回歸173.1.3決策樹183.1.4樸素貝葉斯193.2分類
3、算法的實(shí)現(xiàn)及性能比較193.2.1分類算法的實(shí)現(xiàn)203.2.2分類算法的性能比較213.3分類結(jié)果的可視化展示213.3.1python數(shù)據(jù)可視化工具介紹213.3.2可視化流程213.3.3可視化展示結(jié)果233.4本章小結(jié)27第4章分類算法在Spark平臺(tái)的應(yīng)用284.1Spark集群的搭建284.2分類算法在大數(shù)據(jù)平臺(tái)的應(yīng)用294.2.1分類算法在Spark平臺(tái)的使用流程294.2.2分類算法的具體應(yīng)用304.3分類算法在Spark集群實(shí)際應(yīng)用結(jié)果324.4實(shí)驗(yàn)結(jié)果分析33第5章總結(jié)與展望355.1總結(jié)35
4、5.2展望35參考文獻(xiàn)36致謝38附錄39V金陵科技學(xué)院學(xué)士學(xué)位論文摘要數(shù)據(jù)分類技術(shù)研究及在大數(shù)據(jù)平臺(tái)上的應(yīng)用摘要當(dāng)今互聯(lián)網(wǎng)每日產(chǎn)生的數(shù)據(jù)信息成指數(shù)級(jí)增長(zhǎng),這些數(shù)據(jù)具有著極高的商業(yè)價(jià)值和數(shù)據(jù)挖掘意義。分類算法是數(shù)據(jù)挖掘主要研究?jī)?nèi)容之一,屬于監(jiān)督式學(xué)習(xí),對(duì)已知類別的數(shù)據(jù)集進(jìn)行訓(xùn)練生成分類器,當(dāng)分類器符合預(yù)期要求后,可用以預(yù)測(cè)新數(shù)據(jù)集的類別。人們使用傳統(tǒng)分類方法對(duì)這些海量數(shù)據(jù)進(jìn)行分類時(shí),需要消耗大量的時(shí)間,已無法滿足現(xiàn)在的商業(yè)需求。大數(shù)據(jù)技術(shù)的出現(xiàn),使得數(shù)據(jù)挖掘技術(shù)在應(yīng)對(duì)海量數(shù)據(jù)時(shí)具有更大的優(yōu)勢(shì)。Spark是針對(duì)海
5、量數(shù)據(jù)處理和機(jī)器學(xué)習(xí)而推出的一個(gè)內(nèi)存計(jì)算分布式框架。與之前的并行計(jì)算框架相比,其內(nèi)存計(jì)算特性使得它能很好的執(zhí)行迭代計(jì)算,而且通過對(duì)數(shù)據(jù)的切分、并行處理及容錯(cuò)健壯性方面進(jìn)行封裝,能很好的適用于海量數(shù)據(jù)挖掘。本文的研究是基于南京云創(chuàng)大數(shù)據(jù)有限公司開發(fā)的下一代大數(shù)據(jù)挖掘平臺(tái)展開的。本文以海量數(shù)據(jù)分類問題為研究對(duì)象,挑選四類主流傳統(tǒng)數(shù)據(jù)分類技術(shù),對(duì)其進(jìn)行研究和實(shí)現(xiàn),并運(yùn)用可視化技術(shù)展示分類結(jié)果;基于Spark機(jī)器學(xué)習(xí)算法庫(kù),實(shí)現(xiàn)四類數(shù)據(jù)分類技術(shù)在大數(shù)據(jù)處理平臺(tái)上的應(yīng)用,并比較分析它們?cè)趥鹘y(tǒng)方式及在大數(shù)據(jù)平臺(tái)上的性能差異
6、。本文的研究成果是通過大數(shù)據(jù)技術(shù)與數(shù)據(jù)挖掘技術(shù)的融合、為解決海量數(shù)據(jù)分類問題提供了新的動(dòng)力和借鑒,具有非常重要的現(xiàn)實(shí)意義。關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)分類;Spark;可視化V金陵科技學(xué)院學(xué)士學(xué)位論文AbstractResearch?of?data?classification?technology?and?application?onBig?Data?PlatformAbstractWiththeexponentialgrowthintheInternetdatainformation,thesedatacontai
7、nedrichcommercialvalue.Classificationalgorithmisoneofthemainresearchcontentindatamining,whichbelongstosupervisedlearning.Throughtheknowncategoriesofdatasetsgeneratedtrainedclassifier,whentheclassificationinlinewithexpectations,canbeusedtopredictthecategoryof
8、newdatasets.Itspendslargetimewhenpeopleusethetraditionalclassificationmethodstoclassifyit,whichhasbeenunabletomeettoday'sbusinessneeds,Theemergenceofbigdatatechnologymakesdataminingtechnologyind