基于hadoop的數(shù)據(jù)挖掘算法并行化研究與實(shí)現(xiàn)11

基于hadoop的數(shù)據(jù)挖掘算法并行化研究與實(shí)現(xiàn)11

ID:9389084

大小:5.63 MB

頁數(shù):48頁

時(shí)間:2018-04-29

基于hadoop的數(shù)據(jù)挖掘算法并行化研究與實(shí)現(xiàn)11_第1頁
基于hadoop的數(shù)據(jù)挖掘算法并行化研究與實(shí)現(xiàn)11_第2頁
基于hadoop的數(shù)據(jù)挖掘算法并行化研究與實(shí)現(xiàn)11_第3頁
基于hadoop的數(shù)據(jù)挖掘算法并行化研究與實(shí)現(xiàn)11_第4頁
基于hadoop的數(shù)據(jù)挖掘算法并行化研究與實(shí)現(xiàn)11_第5頁
資源描述:

《基于hadoop的數(shù)據(jù)挖掘算法并行化研究與實(shí)現(xiàn)11》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、基于hadoop的數(shù)據(jù)挖掘算法并行化研究與實(shí)現(xiàn)摘要隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和云計(jì)算技術(shù)的流行,提供網(wǎng)絡(luò)服務(wù)的互聯(lián)網(wǎng)公司每天生成和需要處理的數(shù)據(jù)呈爆炸式增長,海量數(shù)據(jù)已經(jīng)逐漸將我們包圍。數(shù)據(jù)的不斷增長給人們帶來了巨大價(jià)值,同時(shí)也給人們帶來了巨大的挑戰(zhàn)。如何分析和挖掘這些數(shù)據(jù)背后隱藏的有價(jià)值的信息,已經(jīng)成為很多大型企業(yè)所關(guān)注的焦點(diǎn)。大規(guī)模文檔信息資源的自動(dòng)化處理是海量數(shù)據(jù)處理中較受關(guān)注的一個(gè)領(lǐng)域,企業(yè)通過對(duì)文本數(shù)據(jù)進(jìn)行分類,不僅可以對(duì)數(shù)字資源進(jìn)行有效的整理,而且保證數(shù)字資源被全面檢索和充分利用,滿足用戶對(duì)信息咨詢服務(wù)的需求。但同時(shí)互

2、聯(lián)網(wǎng)企業(yè)產(chǎn)生的文本數(shù)據(jù)又具有海量,復(fù)雜等特點(diǎn),面對(duì)現(xiàn)在飛速增長的文本數(shù)據(jù),傳統(tǒng)采用單機(jī)來處理的方式已經(jīng)逐漸滿足不了人們的需求,如何高效率的對(duì)海量文本進(jìn)行分類整理并且挖掘出有價(jià)值的信息,這是本文的一個(gè)關(guān)注的問題。Hadoop是目前最流行的用于處理海量數(shù)據(jù)的開源分布式框架。Hadoop主要的組件包括HDFS和MapReduce。HDFS是Hadoop集群提供的分布式文件系統(tǒng),而MapReduce是一種分布式框架,通過這兩者的結(jié)合,可以對(duì)海量的文本數(shù)據(jù)進(jìn)行有效的處理。本文研究了Hadoop進(jìn)行分布式處理的步驟和原理,在其基礎(chǔ)上設(shè)計(jì)

3、并實(shí)現(xiàn)了基于Hadoop的分布式文本分類系統(tǒng),通過與單機(jī)系統(tǒng)處理結(jié)果的對(duì)比,論證了Hadoop系統(tǒng)在進(jìn)行文本分類時(shí)的效率要高于單機(jī),并且取得良好的分類效果。目錄基于hadoop的數(shù)據(jù)挖掘算法并行化研究與實(shí)現(xiàn)1第一章緒論31.1課題研究背景31.2研究現(xiàn)狀41.2.1Hadoop研究現(xiàn)狀41.2.2文本分類研究現(xiàn)狀51.3本文的主要工作51.4論文的組織結(jié)構(gòu)5第二章Hadoop分布式框架概述62.1什么是Hadoop62.2HDFS分布式文件系統(tǒng)72.2.1HDFS設(shè)計(jì)思想72.2.2名字節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)72.2.3塊的概念92

4、.2.4文件系統(tǒng)命名空間9第三章文本分類的原理163.1向量空間模型163.2中文分詞173.3特征選擇183.3.1卡方檢驗(yàn)193.3.2信息增益193.4特征權(quán)重計(jì)算203.4.1什么是特征權(quán)重203.4.2TF/IDF203.4.2特征權(quán)重與特征選擇的區(qū)別213.5文本分類算法213.5.1樸素貝葉斯方法213.5.2支持向量機(jī)(SVM)223.6文本分類的評(píng)價(jià)體系283.6.1準(zhǔn)確率(Precision)與召回率(Recall)283.6.2F值(F-measure)28第四章基于Hadoop平臺(tái)的文本分類系統(tǒng)的設(shè)計(jì)

5、294.1環(huán)境搭建與實(shí)驗(yàn)設(shè)計(jì)294.1.1系統(tǒng)環(huán)境配置294.1.2Hadoop集群配置324.2文本表示過程的并行化354.2.1預(yù)處理和中文分詞并行化354.2.2特征選擇并行化364.2.3TF/IDF計(jì)算并行化374.3基于樸素貝葉斯文本分類的并行化374.4基于SVM文本分類的并行化384.4.1SVM并行化384.4.3MapReduce實(shí)現(xiàn)414.4.4基于Hadoop的SVM實(shí)現(xiàn)42第一章緒論1.1課題研究背景我們處在一個(gè)數(shù)據(jù)爆炸的時(shí)代,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和云計(jì)算技術(shù)的流行,互聯(lián)網(wǎng)正以海量的數(shù)據(jù)資源和咨詢信

6、息豐富著人們的日常生活,網(wǎng)絡(luò)數(shù)據(jù)規(guī)模正以幾何式增長!僅僅以互聯(lián)網(wǎng)技術(shù)的發(fā)展為例,各種微博,論壇,社交網(wǎng)站等網(wǎng)站如雨后春筍般層出不窮。據(jù)統(tǒng)計(jì),目前全球的Web站點(diǎn)已經(jīng)達(dá)到數(shù)億個(gè),而且還在飛速增長中。網(wǎng)絡(luò)上各種電子書籍、門戶新聞、信息咨詢等服務(wù)內(nèi)容在滿足人們網(wǎng)絡(luò)服務(wù)需求的同時(shí),也給對(duì)海量的數(shù)據(jù)處理帶來了巨大的挑戰(zhàn)。在海量數(shù)據(jù)處理問題中,文檔自動(dòng)分類成為處理和組織大量文檔數(shù)據(jù)的關(guān)注焦點(diǎn)。在數(shù)字圖書館中,對(duì)數(shù)字文本進(jìn)行準(zhǔn)確高效的分類是保證數(shù)字資源被全面檢索和充分利用的基礎(chǔ)。在門戶網(wǎng)站中,對(duì)實(shí)時(shí)新聞的準(zhǔn)確快速分類是滿足人們獲得良好的咨

7、詢服務(wù)的關(guān)鍵。文本分類是文本處理領(lǐng)域的重要研究內(nèi)容之一,其任務(wù)就是在預(yù)先給定的分類模型下,系統(tǒng)在學(xué)習(xí)各類的訓(xùn)練文檔的基礎(chǔ)上,根據(jù)文本的內(nèi)容讓計(jì)算機(jī)自動(dòng)判斷、預(yù)測未知類文檔的類別。文本分類技術(shù)已經(jīng)應(yīng)用于信息檢索、信息抽取、數(shù)字化圖書館、新聞門戶、網(wǎng)上信息快速定位等多個(gè)領(lǐng)域。文本自動(dòng)分類是通過分析被分類文檔的特征,并與其他各類文檔所具有的共同特征進(jìn)行比較,將被分類文檔歸于特征最接近的一類并賦予相應(yīng)類別。常用的文本分類方法有K近鄰(KNN)方法、樸素貝葉斯(NaiveBayes)方法、神經(jīng)網(wǎng)絡(luò)方法(NeuralNet)、支持向量機(jī)

8、(SVM)方法和決策樹方法(DecisionTree)等。其中樸素貝葉斯分類方法是一種簡單有效的概率分類方法,在某些領(lǐng)域表現(xiàn)出很好的性能。就目前網(wǎng)絡(luò)上的海量文本數(shù)據(jù)而言,傳統(tǒng)的文本分類方法具有以下兩點(diǎn)局限:一是分類效率低,互聯(lián)網(wǎng)上動(dòng)輒幾十TB的文本數(shù)據(jù)如果使用傳統(tǒng)單機(jī)的分類方式需要大量的時(shí)

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。