資源描述:
《基于hadoop的數(shù)據(jù)挖掘算法并行化研究與實(shí)現(xiàn)11》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、基于hadoop的數(shù)據(jù)挖掘算法并行化研究與實(shí)現(xiàn)摘要隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和云計(jì)算技術(shù)的流行,提供網(wǎng)絡(luò)服務(wù)的互聯(lián)網(wǎng)公司每天生成和需要處理的數(shù)據(jù)呈爆炸式增長,海量數(shù)據(jù)已經(jīng)逐漸將我們包圍。數(shù)據(jù)的不斷增長給人們帶來了巨大價(jià)值,同時(shí)也給人們帶來了巨大的挑戰(zhàn)。如何分析和挖掘這些數(shù)據(jù)背后隱藏的有價(jià)值的信息,已經(jīng)成為很多大型企業(yè)所關(guān)注的焦點(diǎn)。大規(guī)模文檔信息資源的自動(dòng)化處理是海量數(shù)據(jù)處理中較受關(guān)注的一個(gè)領(lǐng)域,企業(yè)通過對(duì)文本數(shù)據(jù)進(jìn)行分類,不僅可以對(duì)數(shù)字資源進(jìn)行有效的整理,而且保證數(shù)字資源被全面檢索和充分利用,滿足用戶對(duì)信息咨詢服務(wù)的需求。但同時(shí)互
2、聯(lián)網(wǎng)企業(yè)產(chǎn)生的文本數(shù)據(jù)又具有海量,復(fù)雜等特點(diǎn),面對(duì)現(xiàn)在飛速增長的文本數(shù)據(jù),傳統(tǒng)采用單機(jī)來處理的方式已經(jīng)逐漸滿足不了人們的需求,如何高效率的對(duì)海量文本進(jìn)行分類整理并且挖掘出有價(jià)值的信息,這是本文的一個(gè)關(guān)注的問題。Hadoop是目前最流行的用于處理海量數(shù)據(jù)的開源分布式框架。Hadoop主要的組件包括HDFS和MapReduce。HDFS是Hadoop集群提供的分布式文件系統(tǒng),而MapReduce是一種分布式框架,通過這兩者的結(jié)合,可以對(duì)海量的文本數(shù)據(jù)進(jìn)行有效的處理。本文研究了Hadoop進(jìn)行分布式處理的步驟和原理,在其基礎(chǔ)上設(shè)計(jì)
3、并實(shí)現(xiàn)了基于Hadoop的分布式文本分類系統(tǒng),通過與單機(jī)系統(tǒng)處理結(jié)果的對(duì)比,論證了Hadoop系統(tǒng)在進(jìn)行文本分類時(shí)的效率要高于單機(jī),并且取得良好的分類效果。目錄基于hadoop的數(shù)據(jù)挖掘算法并行化研究與實(shí)現(xiàn)1第一章緒論31.1課題研究背景31.2研究現(xiàn)狀41.2.1Hadoop研究現(xiàn)狀41.2.2文本分類研究現(xiàn)狀51.3本文的主要工作51.4論文的組織結(jié)構(gòu)5第二章Hadoop分布式框架概述62.1什么是Hadoop62.2HDFS分布式文件系統(tǒng)72.2.1HDFS設(shè)計(jì)思想72.2.2名字節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)72.2.3塊的概念92
4、.2.4文件系統(tǒng)命名空間9第三章文本分類的原理163.1向量空間模型163.2中文分詞173.3特征選擇183.3.1卡方檢驗(yàn)193.3.2信息增益193.4特征權(quán)重計(jì)算203.4.1什么是特征權(quán)重203.4.2TF/IDF203.4.2特征權(quán)重與特征選擇的區(qū)別213.5文本分類算法213.5.1樸素貝葉斯方法213.5.2支持向量機(jī)(SVM)223.6文本分類的評(píng)價(jià)體系283.6.1準(zhǔn)確率(Precision)與召回率(Recall)283.6.2F值(F-measure)28第四章基于Hadoop平臺(tái)的文本分類系統(tǒng)的設(shè)計(jì)
5、294.1環(huán)境搭建與實(shí)驗(yàn)設(shè)計(jì)294.1.1系統(tǒng)環(huán)境配置294.1.2Hadoop集群配置324.2文本表示過程的并行化354.2.1預(yù)處理和中文分詞并行化354.2.2特征選擇并行化364.2.3TF/IDF計(jì)算并行化374.3基于樸素貝葉斯文本分類的并行化374.4基于SVM文本分類的并行化384.4.1SVM并行化384.4.3MapReduce實(shí)現(xiàn)414.4.4基于Hadoop的SVM實(shí)現(xiàn)42第一章緒論1.1課題研究背景我們處在一個(gè)數(shù)據(jù)爆炸的時(shí)代,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和云計(jì)算技術(shù)的流行,互聯(lián)網(wǎng)正以海量的數(shù)據(jù)資源和咨詢信
6、息豐富著人們的日常生活,網(wǎng)絡(luò)數(shù)據(jù)規(guī)模正以幾何式增長!僅僅以互聯(lián)網(wǎng)技術(shù)的發(fā)展為例,各種微博,論壇,社交網(wǎng)站等網(wǎng)站如雨后春筍般層出不窮。據(jù)統(tǒng)計(jì),目前全球的Web站點(diǎn)已經(jīng)達(dá)到數(shù)億個(gè),而且還在飛速增長中。網(wǎng)絡(luò)上各種電子書籍、門戶新聞、信息咨詢等服務(wù)內(nèi)容在滿足人們網(wǎng)絡(luò)服務(wù)需求的同時(shí),也給對(duì)海量的數(shù)據(jù)處理帶來了巨大的挑戰(zhàn)。在海量數(shù)據(jù)處理問題中,文檔自動(dòng)分類成為處理和組織大量文檔數(shù)據(jù)的關(guān)注焦點(diǎn)。在數(shù)字圖書館中,對(duì)數(shù)字文本進(jìn)行準(zhǔn)確高效的分類是保證數(shù)字資源被全面檢索和充分利用的基礎(chǔ)。在門戶網(wǎng)站中,對(duì)實(shí)時(shí)新聞的準(zhǔn)確快速分類是滿足人們獲得良好的咨
7、詢服務(wù)的關(guān)鍵。文本分類是文本處理領(lǐng)域的重要研究內(nèi)容之一,其任務(wù)就是在預(yù)先給定的分類模型下,系統(tǒng)在學(xué)習(xí)各類的訓(xùn)練文檔的基礎(chǔ)上,根據(jù)文本的內(nèi)容讓計(jì)算機(jī)自動(dòng)判斷、預(yù)測未知類文檔的類別。文本分類技術(shù)已經(jīng)應(yīng)用于信息檢索、信息抽取、數(shù)字化圖書館、新聞門戶、網(wǎng)上信息快速定位等多個(gè)領(lǐng)域。文本自動(dòng)分類是通過分析被分類文檔的特征,并與其他各類文檔所具有的共同特征進(jìn)行比較,將被分類文檔歸于特征最接近的一類并賦予相應(yīng)類別。常用的文本分類方法有K近鄰(KNN)方法、樸素貝葉斯(NaiveBayes)方法、神經(jīng)網(wǎng)絡(luò)方法(NeuralNet)、支持向量機(jī)
8、(SVM)方法和決策樹方法(DecisionTree)等。其中樸素貝葉斯分類方法是一種簡單有效的概率分類方法,在某些領(lǐng)域表現(xiàn)出很好的性能。就目前網(wǎng)絡(luò)上的海量文本數(shù)據(jù)而言,傳統(tǒng)的文本分類方法具有以下兩點(diǎn)局限:一是分類效率低,互聯(lián)網(wǎng)上動(dòng)輒幾十TB的文本數(shù)據(jù)如果使用傳統(tǒng)單機(jī)的分類方式需要大量的時(shí)