基于hadoop的數(shù)據(jù)挖掘算法并行化研究與實(shí)現(xiàn)11

ID：9389084

大小：5.63 MB

頁數(shù)：48頁

時(shí)間：2018-04-29

基于hadoop的數(shù)據(jù)挖掘算法并行化研究與實(shí)現(xiàn)11_第1頁

基于hadoop的數(shù)據(jù)挖掘算法并行化研究與實(shí)現(xiàn)11_第2頁

基于hadoop的數(shù)據(jù)挖掘算法并行化研究與實(shí)現(xiàn)11_第3頁

基于hadoop的數(shù)據(jù)挖掘算法并行化研究與實(shí)現(xiàn)11_第4頁

基于hadoop的數(shù)據(jù)挖掘算法并行化研究與實(shí)現(xiàn)11_第5頁

資源描述：

《基于hadoop的數(shù)據(jù)挖掘算法并行化研究與實(shí)現(xiàn)11》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、基于hadoop的數(shù)據(jù)挖掘算法并行化研究與實(shí)現(xiàn)摘要隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和云計(jì)算技術(shù)的流行，提供網(wǎng)絡(luò)服務(wù)的互聯(lián)網(wǎng)公司每天生成和需要處理的數(shù)據(jù)呈爆炸式增長，海量數(shù)據(jù)已經(jīng)逐漸將我們包圍。數(shù)據(jù)的不斷增長給人們帶來了巨大價(jià)值，同時(shí)也給人們帶來了巨大的挑戰(zhàn)。如何分析和挖掘這些數(shù)據(jù)背后隱藏的有價(jià)值的信息，已經(jīng)成為很多大型企業(yè)所關(guān)注的焦點(diǎn)。大規(guī)模文檔信息資源的自動(dòng)化處理是海量數(shù)據(jù)處理中較受關(guān)注的一個(gè)領(lǐng)域，企業(yè)通過對(duì)文本數(shù)據(jù)進(jìn)行分類，不僅可以對(duì)數(shù)字資源進(jìn)行有效的整理，而且保證數(shù)字資源被全面檢索和充分利用，滿足用戶對(duì)信息咨詢服務(wù)的需求。但同時(shí)互

2、聯(lián)網(wǎng)企業(yè)產(chǎn)生的文本數(shù)據(jù)又具有海量，復(fù)雜等特點(diǎn)，面對(duì)現(xiàn)在飛速增長的文本數(shù)據(jù)，傳統(tǒng)采用單機(jī)來處理的方式已經(jīng)逐漸滿足不了人們的需求，如何高效率的對(duì)海量文本進(jìn)行分類整理并且挖掘出有價(jià)值的信息，這是本文的一個(gè)關(guān)注的問題。Hadoop是目前最流行的用于處理海量數(shù)據(jù)的開源分布式框架。Hadoop主要的組件包括HDFS和MapReduce。HDFS是Hadoop集群提供的分布式文件系統(tǒng)，而MapReduce是一種分布式框架，通過這兩者的結(jié)合，可以對(duì)海量的文本數(shù)據(jù)進(jìn)行有效的處理。本文研究了Hadoop進(jìn)行分布式處理的步驟和原理，在其基礎(chǔ)上設(shè)計(jì)

3、并實(shí)現(xiàn)了基于Hadoop的分布式文本分類系統(tǒng)，通過與單機(jī)系統(tǒng)處理結(jié)果的對(duì)比，論證了Hadoop系統(tǒng)在進(jìn)行文本分類時(shí)的效率要高于單機(jī)，并且取得良好的分類效果。目錄基于hadoop的數(shù)據(jù)挖掘算法并行化研究與實(shí)現(xiàn)1第一章緒論31.1課題研究背景31.2研究現(xiàn)狀41.2.1Hadoop研究現(xiàn)狀41.2.2文本分類研究現(xiàn)狀51.3本文的主要工作51.4論文的組織結(jié)構(gòu)5第二章Hadoop分布式框架概述62.1什么是Hadoop62.2HDFS分布式文件系統(tǒng)72.2.1HDFS設(shè)計(jì)思想72.2.2名字節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)72.2.3塊的概念92

4、.2.4文件系統(tǒng)命名空間9第三章文本分類的原理163.1向量空間模型163.2中文分詞173.3特征選擇183.3.1卡方檢驗(yàn)193.3.2信息增益193.4特征權(quán)重計(jì)算203.4.1什么是特征權(quán)重203.4.2TF/IDF203.4.2特征權(quán)重與特征選擇的區(qū)別213.5文本分類算法213.5.1樸素貝葉斯方法213.5.2支持向量機(jī)(SVM)223.6文本分類的評(píng)價(jià)體系283.6.1準(zhǔn)確率(Precision)與召回率(Recall)283.6.2F值(F-measure)28第四章基于Hadoop平臺(tái)的文本分類系統(tǒng)的設(shè)計(jì)

5、294.1環(huán)境搭建與實(shí)驗(yàn)設(shè)計(jì)294.1.1系統(tǒng)環(huán)境配置294.1.2Hadoop集群配置324.2文本表示過程的并行化354.2.1預(yù)處理和中文分詞并行化354.2.2特征選擇并行化364.2.3TF/IDF計(jì)算并行化374.3基于樸素貝葉斯文本分類的并行化374.4基于SVM文本分類的并行化384.4.1SVM并行化384.4.3MapReduce實(shí)現(xiàn)414.4.4基于Hadoop的SVM實(shí)現(xiàn)42第一章緒論1.1課題研究背景我們處在一個(gè)數(shù)據(jù)爆炸的時(shí)代，隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和云計(jì)算技術(shù)的流行，互聯(lián)網(wǎng)正以海量的數(shù)據(jù)資源和咨詢信

6、息豐富著人們的日常生活，網(wǎng)絡(luò)數(shù)據(jù)規(guī)模正以幾何式增長！僅僅以互聯(lián)網(wǎng)技術(shù)的發(fā)展為例，各種微博，論壇，社交網(wǎng)站等網(wǎng)站如雨后春筍般層出不窮。據(jù)統(tǒng)計(jì)，目前全球的Web站點(diǎn)已經(jīng)達(dá)到數(shù)億個(gè)，而且還在飛速增長中。網(wǎng)絡(luò)上各種電子書籍、門戶新聞、信息咨詢等服務(wù)內(nèi)容在滿足人們網(wǎng)絡(luò)服務(wù)需求的同時(shí)，也給對(duì)海量的數(shù)據(jù)處理帶來了巨大的挑戰(zhàn)。在海量數(shù)據(jù)處理問題中，文檔自動(dòng)分類成為處理和組織大量文檔數(shù)據(jù)的關(guān)注焦點(diǎn)。在數(shù)字圖書館中，對(duì)數(shù)字文本進(jìn)行準(zhǔn)確高效的分類是保證數(shù)字資源被全面檢索和充分利用的基礎(chǔ)。在門戶網(wǎng)站中，對(duì)實(shí)時(shí)新聞的準(zhǔn)確快速分類是滿足人們獲得良好的咨

7、詢服務(wù)的關(guān)鍵。文本分類是文本處理領(lǐng)域的重要研究內(nèi)容之一，其任務(wù)就是在預(yù)先給定的分類模型下，系統(tǒng)在學(xué)習(xí)各類的訓(xùn)練文檔的基礎(chǔ)上，根據(jù)文本的內(nèi)容讓計(jì)算機(jī)自動(dòng)判斷、預(yù)測未知類文檔的類別。文本分類技術(shù)已經(jīng)應(yīng)用于信息檢索、信息抽取、數(shù)字化圖書館、新聞門戶、網(wǎng)上信息快速定位等多個(gè)領(lǐng)域。文本自動(dòng)分類是通過分析被分類文檔的特征，并與其他各類文檔所具有的共同特征進(jìn)行比較，將被分類文檔歸于特征最接近的一類并賦予相應(yīng)類別。常用的文本分類方法有K近鄰(KNN)方法、樸素貝葉斯(NaiveBayes)方法、神經(jīng)網(wǎng)絡(luò)方法(NeuralNet)、支持向量機(jī)

8、(SVM)方法和決策樹方法(DecisionTree)等。其中樸素貝葉斯分類方法是一種簡單有效的概率分類方法,在某些領(lǐng)域表現(xiàn)出很好的性能。就目前網(wǎng)絡(luò)上的海量文本數(shù)據(jù)而言，傳統(tǒng)的文本分類方法具有以下兩點(diǎn)局限：一是分類效率低，互聯(lián)網(wǎng)上動(dòng)輒幾十TB的文本數(shù)據(jù)如果使用傳統(tǒng)單機(jī)的分類方式需要大量的時(shí)

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 48



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于hadoop的數(shù)據(jù)挖掘算法并行化研究與實(shí)現(xiàn)11

基于hadoop的數(shù)據(jù)挖掘算法并行化研究與實(shí)現(xiàn)11

相關(guān)文章

相關(guān)標(biāo)簽