資源描述:
《基于hadoop的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實(shí)現(xiàn)》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、學(xué)校代碼10459學(xué)號或申請?zhí)?01322172113密級專業(yè)碩士學(xué)位論文基于Hadoop的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實(shí)現(xiàn)作者姓名:薛超導(dǎo)師姓名:楊蓓副教授專業(yè)學(xué)位名稱:軟件工程培養(yǎng)院系:信息工程學(xué)院完成時間:2016年5月原創(chuàng)性聲明J本人部重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指導(dǎo)下,獨(dú)立進(jìn)行研究。所取得的成果除文中已經(jīng)注明引用的巧容外,本論文不包含任何其他個人或集。體已經(jīng)發(fā)表或撰寫過的科研成果對本文的研巧作出重要貢獻(xiàn)的個人和集體,巧已在文中對明確方式標(biāo)明。本聲明的法律責(zé)任由本人承擔(dān)。學(xué)位論文作者:日期:年^月><曰S學(xué)位論文使用授權(quán)聲明本人在導(dǎo)師指導(dǎo)下完
2、成的論文及相關(guān)的職務(wù)作品,知識產(chǎn)權(quán)歸屬鄭州大學(xué)。根據(jù)鄭州大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,同意學(xué)校保留或向國家有關(guān)部口或機(jī)構(gòu)送交論文的復(fù)印件和電子版,允許論文被查閲和借閱;本人授權(quán)鄭州大學(xué)可將本學(xué)位論文的全部或部分編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可采用影印、縮巧或者其他復(fù)制手段保存論文和匯編本學(xué)位論文。本人離校后發(fā)表、使用學(xué)位論文一。或與該學(xué)位論文直接相關(guān)的學(xué)術(shù)論文或成果時,第署名單位仍然為鄭州大學(xué)保密論文在解密后應(yīng)遵守此規(guī)定。6學(xué)位論文作者:日期:年^月v日AthesissubmittedtoZhengzhouUniversityforthedegreeofMaste
3、rDesignandImplementationofaDistributedWebCrawlerSystemBasedonHadoopByChaoXueSupervisor:A.Prof.BeiYangSoftwareEngineeringSchoolofInformationEngineeringMay2016摘要摘要隨著互聯(lián)網(wǎng)規(guī)模的不斷擴(kuò)大,云計算、大數(shù)據(jù)的快速發(fā)展,互聯(lián)網(wǎng)資源的不斷增多,搜索引擎在信息檢索方面起著關(guān)鍵性的作用,在日常生活中人們已經(jīng)離不開搜索引擎,搜索引擎能夠?yàn)槿藗兛焖贉?zhǔn)確地提供所需要的信息。網(wǎng)絡(luò)爬蟲作為搜索引擎的關(guān)鍵組成部分,直接影響著搜索引擎的性能。本文基于Hadoop
4、平臺設(shè)計并實(shí)現(xiàn)了一個分布式網(wǎng)絡(luò)爬蟲系統(tǒng)。本文基于Hadoop分布式平臺、Hbase列式數(shù)據(jù)庫、Storm實(shí)時處理平臺以及網(wǎng)絡(luò)爬蟲的基本原理,結(jié)合用戶關(guān)于網(wǎng)絡(luò)爬蟲的實(shí)際需求,明確網(wǎng)絡(luò)爬蟲系統(tǒng)實(shí)現(xiàn)的總體目標(biāo)、功能以及性能需求,設(shè)計出基于Hadoop的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)架構(gòu)。根據(jù)各個模塊的功能以及MapReduce計算框架的特點(diǎn)對每個模塊進(jìn)行基于MapReduce計算框架的算法設(shè)計以及實(shí)現(xiàn),在抓取任務(wù)模塊和解析頁面模塊將抓取狀態(tài)、解析狀態(tài)實(shí)時寫入到Kafka消息隊(duì)列,基于Storm平臺實(shí)時計算相關(guān)指標(biāo)結(jié)果。最后搭建Hadoop分布式平臺和Storm實(shí)時處理平臺對本文所實(shí)現(xiàn)的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)進(jìn)行測試
5、。本文所實(shí)現(xiàn)的網(wǎng)絡(luò)爬蟲系統(tǒng)具有以下特點(diǎn):將網(wǎng)絡(luò)爬蟲的抓取任務(wù)通過MapReduce分布式計算框架實(shí)現(xiàn),從而將爬蟲任務(wù)并行化;將抓取到的數(shù)據(jù)存儲到Hbase分布式數(shù)據(jù)庫中,從而將數(shù)據(jù)均勻分布到各個節(jié)點(diǎn)上,并提高了數(shù)據(jù)讀寫速度;引入Storm實(shí)時計算平臺,實(shí)時統(tǒng)計網(wǎng)絡(luò)爬蟲運(yùn)行過程中產(chǎn)生的相關(guān)指標(biāo)。本文網(wǎng)絡(luò)爬蟲系統(tǒng)將抓取到的頁面內(nèi)容存儲到Hbase數(shù)據(jù)庫中,解決了以往分布式網(wǎng)絡(luò)爬蟲將頁面內(nèi)容存儲到HDFS文件系統(tǒng)中讀寫速度慢的問題,相對于單節(jié)點(diǎn)網(wǎng)絡(luò)爬蟲性能得到顯著提高,并支持可擴(kuò)展性。關(guān)鍵詞:搜索引擎;網(wǎng)絡(luò)爬蟲;Hadoop;Hbase;StormIAbstractAbstractWiththera
6、piddevelopmentofInternet,thequickgrowingofbigdataandcloudcomputing,aswellasthecontinualincreasingofInternetresources,searchengineplaysanimportantroleintheinformationretrieval.Peoplehavebeeninseparablefromthesearchengineinthedailylife.Searchenginecanquicklyandaccuratelyprovidetheinformationneededforp
7、eople.Asthekeycomponentofthesearchengine,webcrawlerhasadirectimpactontheperformanceofsearchengine.ThisthesisdesignsandimplementsadistributedwebcrawlersystembasedonHadoopplatform.ThisthesisintroducesHa