基于標記模板的分布式網絡爬蟲系統(tǒng)的設計與實現

基于標記模板的分布式網絡爬蟲系統(tǒng)的設計與實現

ID:37032359

大?。?.49 MB

頁數:68頁

時間:2019-05-15

基于標記模板的分布式網絡爬蟲系統(tǒng)的設計與實現_第1頁
基于標記模板的分布式網絡爬蟲系統(tǒng)的設計與實現_第2頁
基于標記模板的分布式網絡爬蟲系統(tǒng)的設計與實現_第3頁
基于標記模板的分布式網絡爬蟲系統(tǒng)的設計與實現_第4頁
基于標記模板的分布式網絡爬蟲系統(tǒng)的設計與實現_第5頁
資源描述:

《基于標記模板的分布式網絡爬蟲系統(tǒng)的設計與實現》由會員上傳分享,免費在線閱讀,更多相關內容在學術論文-天天文庫。

1、分類號學號M201676124學校代碼10487密級碩士學位論文基于標記模板的分布式網絡爬蟲系統(tǒng)的設計與實現學位申請人:楊林學科專業(yè):軟件工程指導教師:胡雯薔副教授答辯日期:2018.12.18AThesisSubmittedinPartialFulfillmentoftheRequirementsfortheDegreefortheMasterofEngineeringTheDesignandImplementationofDistributedWebCrawlerSystemBasedonMarkupTemplateCandidate:YangLinMajor:Software

2、EngineeringSupervisor:Assoc.Prof.HuWenqiangHuazhongUniversityofScienceandTechnologyWuhan430074,P.R.ChinaDecember,2018獨創(chuàng)性聲明本人聲明所呈交的學位論文是我個人在導師指導下進行的研究工作及取得的研究成果。盡我所知,除文中已經標明引用的內容外,本論文不包含任何其他個人或集體已經發(fā)表或撰寫過的研宄成果。對本文的研宄做出貢獻的個人和集體,均已在文中以明確方式標明。本人完全意識到本聲明的法律結果由本人承擔。學位論文作者簽名:t.曰期:年月曰丨學位

3、論文版權使用授權書本學位論文作者完全了解學校有關保留、使用學位論文的規(guī)定,B卩:學校有權保,允許論文被查閱和借閱留并向國家有關部門或機構送交論文的復印件和電子版。本人授權華中科技大學可以將本學位論文的全部或部分內容編入有關數據庫進行檢索,可以采用影印、縮印或掃描等復制手段保存和匯編本學位論文。保密□,在年解密后適用本授權書。本論文屬于/不保密k上方框“”(請在以內打V)報論文作者簽名:恭禮騎教臉g:曰期:>丨年,月:曰曰期年'月r曰j7華中科技大學碩士學位論文摘要網絡爬蟲的誕生,滿足了人們快速獲取指定網絡信息的需求。但是傳統(tǒng)網

4、絡爬蟲需要針對不同網站定制爬蟲,而開發(fā)爬蟲程序具有流程多、成本高、難度大、自動化程度低等弊端,同時開發(fā)和維護網絡爬蟲的效率與網站新增和更變速度的懸殊差距,又增加了開發(fā)者的負擔。針對這種矛盾,設計了基于標記模板的分布式網絡爬蟲系統(tǒng)。系統(tǒng)能夠根據攜帶少量網頁信息的爬蟲模板自動生成爬蟲實例,完成采集任務。系統(tǒng)的目標是在減輕爬蟲開發(fā)難度和減少開發(fā)流程的基礎上為網絡輿情系統(tǒng)提供大量實時網絡數據。系統(tǒng)以Scrapy框架為基礎進行修改和擴展以實現分布式,主要工作包括以下幾點:定義爬蟲模板,系統(tǒng)能夠根據模板描述的采集網站、采集元素、爬蟲配置等要素,生成爬蟲實例,執(zhí)行采集任務。設計了一個基于標記的半

5、自動化頁面元素抽取算法,算法以頁面的XPath以及標記信息作為特征,采用聚類策略計算生成抽取規(guī)則,實現自動抽取。實現了一個二級去重方案,將經壓縮并設置有過期時間的URL緩存到內存作為一級緩存,并以鍵值對形式將URL持久化到磁盤形成二級去重,在保證不發(fā)生內存溢出的基礎上實現增量采集的快速去重,增加了系統(tǒng)的穩(wěn)定性。通過封裝頁面渲染引擎和封裝瀏覽器內核兩種方式支持開發(fā)者選擇最佳技術采集動態(tài)頁面。最后,針對采集數據的特點,采用自然語言處理等技術完成對采集數據的清洗任務。基于標記模板的分布式網絡爬蟲系統(tǒng),能夠實現大量網站的自動采集,減少了開發(fā)者開發(fā)流程,避免了為單一網站開發(fā)爬蟲的耗時和難度,

6、免去了頁面抽取語法的學習成本,解決了單機爬蟲效率低、伸縮性差等問題。從測試結果可知,系統(tǒng)能夠實現對包括動態(tài)頁面的大量網站的高效的增量采集,有效的降低了開發(fā)爬蟲的難度和要求,在保證數據的準確性的同時提高了采集效率。關鍵詞:分布式網絡爬蟲模板去重頁面渲染I華中科技大學碩士學位論文AbstractWebcrawlersmeettheneedsofpeopletoquicklyobtainthespecifiednetworkinformation.However,traditionalwebcrawlersneedtocustomizecrawlersfordifferentwebsit

7、es.Thedevelopmentofcrawlerprogramshasmanydisadvantagessuchashighprocess,highcost,highdifficulty,andlowautomationAtthesametime,thedisparitybetweentheefficiencyofdevelopingwebcrawlersandthespeedofincreasingandupdatingwebsitesincreasestheb

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯系客服處理。