基于hadoop的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實(shí)現(xiàn)

ID：35056974

大?。?.96 MB

頁數(shù)：73頁

時間：2019-03-17

基于hadoop的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實(shí)現(xiàn)_第1頁

基于hadoop的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實(shí)現(xiàn)_第2頁

基于hadoop的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實(shí)現(xiàn)_第3頁

基于hadoop的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實(shí)現(xiàn)_第4頁

基于hadoop的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實(shí)現(xiàn)_第5頁

資源描述：

《基于hadoop的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實(shí)現(xiàn)》由會員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、學(xué)校代碼10459學(xué)號或申請?zhí)?01322172113密級專業(yè)碩士學(xué)位論文基于Hadoop的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實(shí)現(xiàn)作者姓名：薛超導(dǎo)師姓名：楊蓓副教授專業(yè)學(xué)位名稱：軟件工程培養(yǎng)院系：信息工程學(xué)院完成時間：2016年5月原創(chuàng)性聲明Ｊ本人部重聲明：所呈交的學(xué)位論文，是本人在導(dǎo)師的指導(dǎo)下，獨(dú)立進(jìn)行研究。所取得的成果除文中已經(jīng)注明引用的巧容外，本論文不包含任何其他個人或集。體已經(jīng)發(fā)表或撰寫過的科研成果對本文的研巧作出重要貢獻(xiàn)的個人和集體，巧已在文中對明確方式標(biāo)明。本聲明的法律責(zé)任由本人承擔(dān)。學(xué)位論文作者：日期：年＾月＞＜曰Ｓ學(xué)位論文使用授權(quán)聲明本人在導(dǎo)師指導(dǎo)下完

2、成的論文及相關(guān)的職務(wù)作品，知識產(chǎn)權(quán)歸屬鄭州大學(xué)。根據(jù)鄭州大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定，同意學(xué)校保留或向國家有關(guān)部口或機(jī)構(gòu)送交論文的復(fù)印件和電子版，允許論文被查閲和借閱；本人授權(quán)鄭州大學(xué)可將本學(xué)位論文的全部或部分編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索，可采用影印、縮巧或者其他復(fù)制手段保存論文和匯編本學(xué)位論文。本人離校后發(fā)表、使用學(xué)位論文一。或與該學(xué)位論文直接相關(guān)的學(xué)術(shù)論文或成果時，第署名單位仍然為鄭州大學(xué)保密論文在解密后應(yīng)遵守此規(guī)定。６學(xué)位論文作者：日期：年＾月ｖ日AthesissubmittedtoZhengzhouUniversityforthedegreeofMaste

3、rDesignandImplementationofaDistributedWebCrawlerSystemBasedonHadoopByChaoXueSupervisor:A.Prof.BeiYangSoftwareEngineeringSchoolofInformationEngineeringMay2016摘要摘要隨著互聯(lián)網(wǎng)規(guī)模的不斷擴(kuò)大，云計算、大數(shù)據(jù)的快速發(fā)展，互聯(lián)網(wǎng)資源的不斷增多，搜索引擎在信息檢索方面起著關(guān)鍵性的作用，在日常生活中人們已經(jīng)離不開搜索引擎，搜索引擎能夠?yàn)槿藗兛焖贉?zhǔn)確地提供所需要的信息。網(wǎng)絡(luò)爬蟲作為搜索引擎的關(guān)鍵組成部分，直接影響著搜索引擎的性能。本文基于Hadoop

4、平臺設(shè)計并實(shí)現(xiàn)了一個分布式網(wǎng)絡(luò)爬蟲系統(tǒng)。本文基于Hadoop分布式平臺、Hbase列式數(shù)據(jù)庫、Storm實(shí)時處理平臺以及網(wǎng)絡(luò)爬蟲的基本原理，結(jié)合用戶關(guān)于網(wǎng)絡(luò)爬蟲的實(shí)際需求，明確網(wǎng)絡(luò)爬蟲系統(tǒng)實(shí)現(xiàn)的總體目標(biāo)、功能以及性能需求，設(shè)計出基于Hadoop的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)架構(gòu)。根據(jù)各個模塊的功能以及MapReduce計算框架的特點(diǎn)對每個模塊進(jìn)行基于MapReduce計算框架的算法設(shè)計以及實(shí)現(xiàn)，在抓取任務(wù)模塊和解析頁面模塊將抓取狀態(tài)、解析狀態(tài)實(shí)時寫入到Kafka消息隊(duì)列，基于Storm平臺實(shí)時計算相關(guān)指標(biāo)結(jié)果。最后搭建Hadoop分布式平臺和Storm實(shí)時處理平臺對本文所實(shí)現(xiàn)的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)進(jìn)行測試

5、。本文所實(shí)現(xiàn)的網(wǎng)絡(luò)爬蟲系統(tǒng)具有以下特點(diǎn)：將網(wǎng)絡(luò)爬蟲的抓取任務(wù)通過MapReduce分布式計算框架實(shí)現(xiàn)，從而將爬蟲任務(wù)并行化；將抓取到的數(shù)據(jù)存儲到Hbase分布式數(shù)據(jù)庫中，從而將數(shù)據(jù)均勻分布到各個節(jié)點(diǎn)上，并提高了數(shù)據(jù)讀寫速度；引入Storm實(shí)時計算平臺，實(shí)時統(tǒng)計網(wǎng)絡(luò)爬蟲運(yùn)行過程中產(chǎn)生的相關(guān)指標(biāo)。本文網(wǎng)絡(luò)爬蟲系統(tǒng)將抓取到的頁面內(nèi)容存儲到Hbase數(shù)據(jù)庫中，解決了以往分布式網(wǎng)絡(luò)爬蟲將頁面內(nèi)容存儲到HDFS文件系統(tǒng)中讀寫速度慢的問題，相對于單節(jié)點(diǎn)網(wǎng)絡(luò)爬蟲性能得到顯著提高，并支持可擴(kuò)展性。關(guān)鍵詞：搜索引擎；網(wǎng)絡(luò)爬蟲；Hadoop；Hbase；StormIAbstractAbstractWiththera

6、piddevelopmentofInternet,thequickgrowingofbigdataandcloudcomputing,aswellasthecontinualincreasingofInternetresources,searchengineplaysanimportantroleintheinformationretrieval.Peoplehavebeeninseparablefromthesearchengineinthedailylife.Searchenginecanquicklyandaccuratelyprovidetheinformationneededforp

7、eople.Asthekeycomponentofthesearchengine,webcrawlerhasadirectimpactontheperformanceofsearchengine.ThisthesisdesignsandimplementsadistributedwebcrawlersystembasedonHadoopplatform.ThisthesisintroducesHa

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 73



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

基于hadoop的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實(shí)現(xiàn)

基于hadoop的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計與實(shí)現(xiàn)

相關(guān)文章

相關(guān)標(biāo)簽