數(shù)據(jù)分類技術(shù)研究及在大數(shù)據(jù)平臺(tái)上的應(yīng)用-畢業(yè)論文.doc

數(shù)據(jù)分類技術(shù)研究及在大數(shù)據(jù)平臺(tái)上的應(yīng)用-畢業(yè)論文.doc

ID:10939606

大小:4.84 MB

頁(yè)數(shù):63頁(yè)

時(shí)間:2018-07-09

數(shù)據(jù)分類技術(shù)研究及在大數(shù)據(jù)平臺(tái)上的應(yīng)用-畢業(yè)論文.doc_第1頁(yè)
數(shù)據(jù)分類技術(shù)研究及在大數(shù)據(jù)平臺(tái)上的應(yīng)用-畢業(yè)論文.doc_第2頁(yè)
數(shù)據(jù)分類技術(shù)研究及在大數(shù)據(jù)平臺(tái)上的應(yīng)用-畢業(yè)論文.doc_第3頁(yè)
數(shù)據(jù)分類技術(shù)研究及在大數(shù)據(jù)平臺(tái)上的應(yīng)用-畢業(yè)論文.doc_第4頁(yè)
數(shù)據(jù)分類技術(shù)研究及在大數(shù)據(jù)平臺(tái)上的應(yīng)用-畢業(yè)論文.doc_第5頁(yè)
資源描述:

《數(shù)據(jù)分類技術(shù)研究及在大數(shù)據(jù)平臺(tái)上的應(yīng)用-畢業(yè)論文.doc》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。

1、畢業(yè)設(shè)計(jì)(論文)設(shè)計(jì)(論文)題目:數(shù)據(jù)分類技術(shù)研究及        在大數(shù)據(jù)平臺(tái)上的應(yīng)用學(xué)生姓名:指導(dǎo)教師:二級(jí)學(xué)院:軟件工程學(xué)院專  業(yè):軟件工程班  級(jí):學(xué)  號(hào):提交日期:2016年5月13日答辯日期:2016年5月21日金陵科技學(xué)院學(xué)士學(xué)位論文目錄目錄摘要IIIAbstractIV第1章緒論11.1選題依據(jù)及意義11.2國(guó)內(nèi)外研究現(xiàn)狀21.3存在的問題21.4本文研究?jī)?nèi)容21.5論文結(jié)構(gòu)3第2章相關(guān)技術(shù)42.1數(shù)據(jù)挖掘42.1.1數(shù)據(jù)挖掘的基本任務(wù)42.1.2數(shù)據(jù)挖掘的基本技術(shù)42.1.3數(shù)據(jù)挖掘技術(shù)實(shí)

2、施步驟52.2數(shù)據(jù)分類62.2.1分類過程62.2.2分類性能評(píng)估指標(biāo)62.2.3主要分類算法概述72.3大數(shù)據(jù)核心技術(shù)Spark82.3.1Spark簡(jiǎn)介82.3.2Spark的依賴92.3.3Spark架構(gòu)102.3.4Spark運(yùn)行邏輯112.3.5SparkOnYARN112.3.6SparkMLlib122.4本章總結(jié)13第3章分類算法的研究與實(shí)現(xiàn)15V金陵科技學(xué)院學(xué)士學(xué)位論文目錄3.1分類算法研究153.1.1支持向量機(jī)153.1.2邏輯回歸173.1.3決策樹183.1.4樸素貝葉斯193.2分類

3、算法的實(shí)現(xiàn)及性能比較193.2.1分類算法的實(shí)現(xiàn)203.2.2分類算法的性能比較213.3分類結(jié)果的可視化展示213.3.1python數(shù)據(jù)可視化工具介紹213.3.2可視化流程213.3.3可視化展示結(jié)果233.4本章小結(jié)27第4章分類算法在Spark平臺(tái)的應(yīng)用284.1Spark集群的搭建284.2分類算法在大數(shù)據(jù)平臺(tái)的應(yīng)用294.2.1分類算法在Spark平臺(tái)的使用流程294.2.2分類算法的具體應(yīng)用304.3分類算法在Spark集群實(shí)際應(yīng)用結(jié)果324.4實(shí)驗(yàn)結(jié)果分析33第5章總結(jié)與展望355.1總結(jié)35

4、5.2展望35參考文獻(xiàn)36致謝38附錄39V金陵科技學(xué)院學(xué)士學(xué)位論文摘要數(shù)據(jù)分類技術(shù)研究及在大數(shù)據(jù)平臺(tái)上的應(yīng)用摘要當(dāng)今互聯(lián)網(wǎng)每日產(chǎn)生的數(shù)據(jù)信息成指數(shù)級(jí)增長(zhǎng),這些數(shù)據(jù)具有著極高的商業(yè)價(jià)值和數(shù)據(jù)挖掘意義。分類算法是數(shù)據(jù)挖掘主要研究?jī)?nèi)容之一,屬于監(jiān)督式學(xué)習(xí),對(duì)已知類別的數(shù)據(jù)集進(jìn)行訓(xùn)練生成分類器,當(dāng)分類器符合預(yù)期要求后,可用以預(yù)測(cè)新數(shù)據(jù)集的類別。人們使用傳統(tǒng)分類方法對(duì)這些海量數(shù)據(jù)進(jìn)行分類時(shí),需要消耗大量的時(shí)間,已無法滿足現(xiàn)在的商業(yè)需求。大數(shù)據(jù)技術(shù)的出現(xiàn),使得數(shù)據(jù)挖掘技術(shù)在應(yīng)對(duì)海量數(shù)據(jù)時(shí)具有更大的優(yōu)勢(shì)。Spark是針對(duì)海

5、量數(shù)據(jù)處理和機(jī)器學(xué)習(xí)而推出的一個(gè)內(nèi)存計(jì)算分布式框架。與之前的并行計(jì)算框架相比,其內(nèi)存計(jì)算特性使得它能很好的執(zhí)行迭代計(jì)算,而且通過對(duì)數(shù)據(jù)的切分、并行處理及容錯(cuò)健壯性方面進(jìn)行封裝,能很好的適用于海量數(shù)據(jù)挖掘。本文的研究是基于南京云創(chuàng)大數(shù)據(jù)有限公司開發(fā)的下一代大數(shù)據(jù)挖掘平臺(tái)展開的。本文以海量數(shù)據(jù)分類問題為研究對(duì)象,挑選四類主流傳統(tǒng)數(shù)據(jù)分類技術(shù),對(duì)其進(jìn)行研究和實(shí)現(xiàn),并運(yùn)用可視化技術(shù)展示分類結(jié)果;基于Spark機(jī)器學(xué)習(xí)算法庫(kù),實(shí)現(xiàn)四類數(shù)據(jù)分類技術(shù)在大數(shù)據(jù)處理平臺(tái)上的應(yīng)用,并比較分析它們?cè)趥鹘y(tǒng)方式及在大數(shù)據(jù)平臺(tái)上的性能差異

6、。本文的研究成果是通過大數(shù)據(jù)技術(shù)與數(shù)據(jù)挖掘技術(shù)的融合、為解決海量數(shù)據(jù)分類問題提供了新的動(dòng)力和借鑒,具有非常重要的現(xiàn)實(shí)意義。關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)分類;Spark;可視化V金陵科技學(xué)院學(xué)士學(xué)位論文AbstractResearch?of?data?classification?technology?and?application?onBig?Data?PlatformAbstractWiththeexponentialgrowthintheInternetdatainformation,thesedatacontai

7、nedrichcommercialvalue.Classificationalgorithmisoneofthemainresearchcontentindatamining,whichbelongstosupervisedlearning.Throughtheknowncategoriesofdatasetsgeneratedtrainedclassifier,whentheclassificationinlinewithexpectations,canbeusedtopredictthecategoryof

8、newdatasets.Itspendslargetimewhenpeopleusethetraditionalclassificationmethodstoclassifyit,whichhasbeenunabletomeettoday'sbusinessneeds,Theemergenceofbigdatatechnologymakesdataminingtechnologyind

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。