資源描述:
《基于hadoop的分布式爬蟲及其實(shí)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、密級(jí)保密期限:碩士研究生學(xué)位論文題目:學(xué)號(hào):姓名:專業(yè):導(dǎo)師:學(xué)院:0757392010年1月10日密級(jí):保密期限:碩士研究生學(xué)位論文題目:學(xué)號(hào):姓名:專業(yè):導(dǎo)師:學(xué)院:0757392010年1月10日獨(dú)創(chuàng)性(或創(chuàng)新性)聲明本人聲明所呈交的論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。盡我所知,除了文中特別加以標(biāo)注和致謝中所羅列的內(nèi)容以外,論文中不包含其他人已經(jīng)發(fā)表或撰寫過(guò)的研究成果,也不包含為獲得北京郵電大學(xué)或其他教育機(jī)構(gòu)的學(xué)位或證書而使用過(guò)的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已在論文中作
2、了明確的說(shuō)明并表示了謝意。申請(qǐng)學(xué)位論文與資料若有不實(shí)之處,本人承擔(dān)一切相關(guān)責(zé)任。本人簽名:不璐陀日期:洲0.3.11關(guān)于論文使用授權(quán)的說(shuō)明·學(xué)位論文作者完全了解北京郵電大學(xué)有關(guān)保留和使用學(xué)位論文的規(guī)定,即:研究生在校攻讀學(xué)位期間論文工作的知識(shí)產(chǎn)權(quán)單位屬北京郵電大學(xué)。學(xué)校有權(quán)保留并向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和磁盤,允許學(xué)位論文被查閱和借閱;學(xué)??梢怨紝W(xué)位論文的全部或部分內(nèi)容,可以允許采用影印、縮印或其它復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后遵守此規(guī)定)保密論文注釋:本學(xué)位論文屬于保密在-~
3、旦一年解密后適用本授權(quán)書。非保密論文注釋:本學(xué)位論文不屬于保密范圍,適用本授權(quán)書。本人簽名:導(dǎo)師簽名:劣并政了人二加日期:加久子份.日期:儼t?!ち?1下北京郵電大學(xué)碩士學(xué)位論文摘要基于Hadoop平臺(tái)的分布式爬蟲及其實(shí)現(xiàn)摘任石3(如今,云計(jì)算已成為未來(lái)發(fā)展的重要趨勢(shì)之一。目前,世界上各大lT公司如Google、IBM、微軟、亞馬遜等紛紛搭建了自己的“云計(jì)算平臺(tái)”。鑒于此,實(shí)驗(yàn)室也制定了長(zhǎng)期“云計(jì)算”研究計(jì)劃,積極嘗試開發(fā)自己的“云平臺(tái)工作環(huán)境”,其主要建立在APache開源項(xiàng)目Hadoop的基礎(chǔ)之上。本項(xiàng)目是該
4、長(zhǎng)期計(jì)劃的一部分,目的是在Hadoop分布式文件系統(tǒng)HDFS以及分布式計(jì)算框架MaPReduce的基礎(chǔ)上開發(fā)“分布式搜索引擎”。本文正是在此基礎(chǔ)上,探討了搜索引擎的爬蟲部分,即基于分布式計(jì)算框架的分布式爬蟲。本文具體研究工作包括云計(jì)篡HadQop分布式平臺(tái)、網(wǎng)挪卑原理早個(gè)主要部分。在云計(jì)算部分,本文從云計(jì)算體系結(jié)構(gòu)出發(fā),探討了云計(jì)算服務(wù)層次和'技術(shù)層次。接著,針對(duì)技術(shù)基礎(chǔ)Hadoop分布式平臺(tái),本文對(duì)其兩大核心技術(shù)分·布式文件系統(tǒng)HDFS和分布式計(jì)算框架MaPReduce進(jìn)行了深入研究。與此同時(shí),本文討論了搜索引
5、擎的基本技術(shù)和網(wǎng)絡(luò)爬蟲的基本原理,并對(duì)分布式爬蟲的技術(shù)原型Nuteh進(jìn)行了剖析。在研究工作的基礎(chǔ)上,本文提出了分布式爬蟲的具體設(shè)計(jì)方案,確定了分布式爬蟲的系統(tǒng)布局、模塊劃分以及分布式爬蟲的流程控制和功能實(shí)現(xiàn)。基于此,本文對(duì)分布式爬蟲的數(shù)據(jù)存儲(chǔ)方式和數(shù)據(jù)格式信息進(jìn)行了設(shè)計(jì),并完成了爬蟲各分模塊具體類的實(shí)現(xiàn)。最后,在實(shí)驗(yàn)室大規(guī)模集群的基礎(chǔ)上,對(duì)該爬蟲系統(tǒng)進(jìn)行了功能測(cè)試、可擴(kuò)展性測(cè)試和性能測(cè)試。在這些測(cè)試數(shù)據(jù)的基礎(chǔ)上,本文對(duì)該系統(tǒng)的優(yōu)點(diǎn)和缺點(diǎn)進(jìn)行了詳細(xì)分析,并對(duì)工作進(jìn)行了總結(jié)和展望。關(guān)鍵詞:云計(jì)算分布式爬蟲Hadoop
6、HDFSMapReduce搜索引擎7北京郵電大學(xué)碩士學(xué)位論文AbstraetRESEARCHANDIMPLEMENT入r1ONOFDISTRIBUTEDWEBCRAWLBASEDONHADOOPARCHITECTUREABSTRACTNowadays,cloudeomPutinghasbecomeoneofthemostimPortanttechnologyintheITindustry.TheleadingeomPaniessuehasGoogle,IBM,Mierosoft,Amazonand50onared
7、eveloPingtheir“CloudComputingplatfo鉀”activel獷Inthissituat護(hù)n,thelabofStat只稱y-LaboratoryofNetworkingandSwitehingalsoneedtodeveloPitsown·“CloudComputingplatform”,whieh15mainlybasedonHadoop,TheprojeetofthisPaPer15onePartofthiseloudcomPutingPlatform.Thegoal15todev
8、eloPadistributedsearehenginebasedonRedhatELS.2,distributedfilesystemHDFSanddistributedeomPutingftameworkMaPReduce.ThisPaPerexPlorestheerawlPartofthisdistributedsearehenglne.ThisPaPerfirst