網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)

ID：860612

大小：844.53 KB

頁數(shù)：57頁

時間：2017-09-21

資源描述：

《網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)》由會員上傳分享，免費在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、畢業(yè)設(shè)計（論文）說明書學(xué)院軟件學(xué)院專業(yè)軟件工程年級2007姓名張鳳龍指導(dǎo)教師陳錦言2011年3月6日畢業(yè)設(shè)計（論文）任務(wù)書題目：網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)學(xué)生姓名張鳳龍學(xué)院名稱軟件學(xué)院專業(yè)軟件工程學(xué)號3007218139指導(dǎo)教師陳錦言職稱講師一、原始依據(jù)（包括設(shè)計或論文的工作基礎(chǔ)、研究條件、應(yīng)用環(huán)境、工作目的等。）互聯(lián)網(wǎng)是一個龐大的非結(jié)構(gòu)化的數(shù)據(jù)庫，將數(shù)據(jù)有效的檢索并組織呈現(xiàn)出來有著巨大的應(yīng)用前景。搜索引擎作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是，這些通用性搜索引擎也存在著一定的局限性。不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求，通用搜索引擎所返

2、回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。所以需要一個能基于主題搜索的滿足特定需求的網(wǎng)絡(luò)爬蟲。為了解決上述問題，參照成功的網(wǎng)絡(luò)爬蟲模式，對網(wǎng)絡(luò)爬蟲進(jìn)行研究，從而能夠為網(wǎng)絡(luò)爬蟲實現(xiàn)更深入的主題相關(guān)性，提供滿足特定搜索需求的網(wǎng)絡(luò)爬蟲。二、參考文獻(xiàn)[1]Winter．中文搜索引擎技術(shù)解密：網(wǎng)絡(luò)蜘蛛[M]．北京：人民郵電出版社，2004年．[2]Sergey等．TheAnatomyofaLarge-ScaleHypertextualWebSearchEngine[M]．北京：清華大學(xué)出版社，1998年．[3]Wisenut．WiseNutSearchEnginewhitepaper[M]．

3、北京：中國電力出版社，2001年．[4]GaryR.WrightW.RichardStevens．TCP-IP協(xié)議詳解卷3：TCP事務(wù)協(xié)議，HTTP，NNTP和UNIX域協(xié)議[M]．北京：機(jī)械工業(yè)出版社，2002年1月.[5]羅剛王振東．自己動手寫網(wǎng)絡(luò)爬蟲[M]．北京：清華大學(xué)出版社，2010年10月.[6]李曉明，閆宏飛，王繼民．搜索引擎：原理、技術(shù)與系統(tǒng)——華夏英才基金學(xué)術(shù)文庫[M]．北京：科學(xué)出版社，2005年04月.三、設(shè)計（研究）內(nèi)容和要求（包括設(shè)計或研究內(nèi)容、主要指標(biāo)與技術(shù)參數(shù)，并根據(jù)課題性質(zhì)對學(xué)生提出具體要求。）本課題的主要目的是設(shè)計面向主題的網(wǎng)絡(luò)爬蟲程序，同

4、時需要滿足的是具有一定的性能，要考慮到網(wǎng)絡(luò)爬蟲的各種需求。網(wǎng)絡(luò)爬蟲應(yīng)用寬度搜索技術(shù)。對url進(jìn)行分析，去重。網(wǎng)絡(luò)爬蟲使用多線程技術(shù)，讓爬蟲具備更強(qiáng)大的抓取能力。網(wǎng)絡(luò)爬蟲要實現(xiàn)對特定主題的爬取。網(wǎng)絡(luò)爬蟲還要完成信息提取任務(wù)，對于抓取回來的網(wǎng)頁提取出來:新聞、電子圖書、行業(yè)信息等。對網(wǎng)絡(luò)爬蟲的連接網(wǎng)絡(luò)設(shè)置連接及讀取時間，避免無限制的等待。研究網(wǎng)絡(luò)爬蟲的原理并實現(xiàn)爬蟲的相關(guān)功能。最終實現(xiàn)的網(wǎng)絡(luò)爬蟲應(yīng)該能根據(jù)設(shè)定的主題，從設(shè)定的url進(jìn)行一定深度的搜索，并最終得到需要的數(shù)據(jù)。指導(dǎo)教師（簽字）年月日審題小組組長（簽字）年月日天津大學(xué)本科生畢業(yè)設(shè)計（論文）開題報告課題名稱網(wǎng)絡(luò)爬蟲設(shè)計與

5、實現(xiàn)學(xué)院名稱軟件學(xué)院專業(yè)名稱軟件工程學(xué)生姓名張鳳龍指導(dǎo)教師陳錦言（內(nèi)容包括：課題的來源及意義，國內(nèi)外發(fā)展?fàn)顩r，本課題的研究目標(biāo)、研究內(nèi)容、研究方法、研究手段和進(jìn)度安排，實驗方案的可行性分析和已具備的實驗條件以及主要參考文獻(xiàn)等。）一．課題的來源及意義互聯(lián)網(wǎng)是一個龐大的非結(jié)構(gòu)化的數(shù)據(jù)庫，將數(shù)據(jù)有效的檢索并組織呈現(xiàn)出來有著巨大的應(yīng)用前景。搜索引擎作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是，這些通用性搜索引擎也存在著一定的局限性。不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求，通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。為了解決這個問題，一個靈活

6、的爬蟲有著無可替代的重要意義。二．國內(nèi)外發(fā)展?fàn)顩r對于網(wǎng)絡(luò)爬蟲的研究從上世紀(jì)九十年代就開始了，目前爬蟲技術(shù)已經(jīng)趨見成熟，網(wǎng)絡(luò)爬蟲是搜索引擎的重要組成部分。網(wǎng)絡(luò)上比較著名的開源爬蟲包括Nutch，Larbin，Heritrix。網(wǎng)絡(luò)爬蟲最重要的是網(wǎng)頁搜索策略（廣度優(yōu)先和最佳度優(yōu)先）和網(wǎng)頁分析策略（基于網(wǎng)絡(luò)拓?fù)涞姆治鏊惴ê突诰W(wǎng)頁內(nèi)容的網(wǎng)頁分析算法）。三．研究目標(biāo)本論文主要研究搜索引擎的搜索器（網(wǎng)絡(luò)爬蟲程序）的設(shè)計與實現(xiàn),實現(xiàn)簡單的可在后臺自動運(yùn)行的爬蟲程序。1.可以多線程進(jìn)行抓取。2.可以進(jìn)行面向主題的抓取。四．研究內(nèi)容本課題研究的內(nèi)容是如何使網(wǎng)絡(luò)爬蟲靈活高效。1.如何具備更強(qiáng)

7、的抓取能力。2.如何分辨重復(fù)的網(wǎng)頁內(nèi)容。3.如何確定主題相關(guān)性。4.對于網(wǎng)絡(luò)時延等的處理。五．研究方法網(wǎng)絡(luò)爬蟲應(yīng)用寬度搜索技術(shù)。對url進(jìn)行分析，去重。網(wǎng)絡(luò)爬蟲使用多線程技術(shù)，讓爬蟲具備更強(qiáng)大的抓取能力。網(wǎng)絡(luò)爬蟲還要完成信息提取任務(wù)，對于抓取回來的網(wǎng)頁提取出來新聞等信息。對網(wǎng)絡(luò)爬蟲的連接網(wǎng)絡(luò)設(shè)置連接及讀取時間，避免無限制的等待。研究網(wǎng)絡(luò)爬蟲的原理并實現(xiàn)爬蟲的相關(guān)功能。六．研究手段參考網(wǎng)上開源的網(wǎng)絡(luò)爬蟲和各種網(wǎng)絡(luò)爬蟲相關(guān)的書籍，在windows系統(tǒng)環(huán)境下開發(fā)。五．本課題進(jìn)度安排：2010.12.20—2011.03.

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 57



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件，查看預(yù)覽時可能會顯示錯亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤，付費完成后未能成功下載的用戶請聯(lián)系客服處理。

網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)

網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)

相關(guān)文章

相關(guān)標(biāo)簽