網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)

網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)

ID:6564396

大?。?30.00 KB

頁數(shù):57頁

時間:2018-01-18

網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)_第1頁
網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)_第2頁
網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)_第3頁
網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)_第4頁
網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)_第5頁
資源描述:

《網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫

1、畢業(yè)設(shè)計(論文)說明書學(xué)院軟件學(xué)院專業(yè)軟件工程年級2007姓名張鳳龍指導(dǎo)教師陳錦言2011年3月6日畢業(yè)設(shè)計(論文)任務(wù)書題目:網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)學(xué)生姓名張鳳龍學(xué)院名稱軟件學(xué)院專業(yè)軟件工程學(xué)號3007218139指導(dǎo)教師陳錦言職稱講師一、原始依據(jù)(包括設(shè)計或論文的工作基礎(chǔ)、研究條件、應(yīng)用環(huán)境、工作目的等。)互聯(lián)網(wǎng)是一個龐大的非結(jié)構(gòu)化的數(shù)據(jù)庫,將數(shù)據(jù)有效的檢索并組織呈現(xiàn)出來有著巨大的應(yīng)用前景。搜索引擎作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性。不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果包含

2、大量用戶不關(guān)心的網(wǎng)頁。所以需要一個能基于主題搜索的滿足特定需求的網(wǎng)絡(luò)爬蟲。為了解決上述問題,參照成功的網(wǎng)絡(luò)爬蟲模式,對網(wǎng)絡(luò)爬蟲進(jìn)行研究,從而能夠為網(wǎng)絡(luò)爬蟲實現(xiàn)更深入的主題相關(guān)性,提供滿足特定搜索需求的網(wǎng)絡(luò)爬蟲。二、參考文獻(xiàn)[1]Winter.中文搜索引擎技術(shù)解密:網(wǎng)絡(luò)蜘蛛[M].北京:人民郵電出版社,2004年.[2]Sergey等.TheAnatomyofaLarge-ScaleHypertextualWebSearchEngine[M].北京:清華大學(xué)出版社,1998年.[3]Wisenut.WiseNutSearchEnginewhitepaper[M].北京:中國電力出版社,2

3、001年.[4]GaryR.WrightW.RichardStevens.TCP-IP協(xié)議詳解卷3:TCP事務(wù)協(xié)議,HTTP,NNTP和UNIX域協(xié)議[M].北京:機(jī)械工業(yè)出版社,2002年1月.[5]羅剛王振東.自己動手寫網(wǎng)絡(luò)爬蟲[M].北京:清華大學(xué)出版社,2010年10月.[6]李曉明,閆宏飛,王繼民.搜索引擎:原理、技術(shù)與系統(tǒng)——華夏英才基金學(xué)術(shù)文庫[M].北京:科學(xué)出版社,2005年04月.三、設(shè)計(研究)內(nèi)容和要求(包括設(shè)計或研究內(nèi)容、主要指標(biāo)與技術(shù)參數(shù),并根據(jù)課題性質(zhì)對學(xué)生提出具體要求。)本課題的主要目的是設(shè)計面向主題的網(wǎng)絡(luò)爬蟲程序,同時需要滿足的是具有一定的性能,要考慮

4、到網(wǎng)絡(luò)爬蟲的各種需求。網(wǎng)絡(luò)爬蟲應(yīng)用寬度搜索技術(shù)。對url進(jìn)行分析,去重。網(wǎng)絡(luò)爬蟲使用多線程技術(shù),讓爬蟲具備更強(qiáng)大的抓取能力。網(wǎng)絡(luò)爬蟲要實現(xiàn)對特定主題的爬取。網(wǎng)絡(luò)爬蟲還要完成信息提取任務(wù),對于抓取回來的網(wǎng)頁提取出來:新聞、電子圖書、行業(yè)信息等。對網(wǎng)絡(luò)爬蟲的連接網(wǎng)絡(luò)設(shè)置連接及讀取時間,避免無限制的等待。研究網(wǎng)絡(luò)爬蟲的原理并實現(xiàn)爬蟲的相關(guān)功能。最終實現(xiàn)的網(wǎng)絡(luò)爬蟲應(yīng)該能根據(jù)設(shè)定的主題,從設(shè)定的url進(jìn)行一定深度的搜索,并最終得到需要的數(shù)據(jù)。指導(dǎo)教師(簽字)年月日審題小組組長(簽字)年月日天津大學(xué)本科生畢業(yè)設(shè)計(論文)開題報告課題名稱網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)學(xué)院名稱軟件學(xué)院專業(yè)名稱軟件工程學(xué)生姓名張鳳

5、龍指導(dǎo)教師陳錦言(內(nèi)容包括:課題的來源及意義,國內(nèi)外發(fā)展?fàn)顩r,本課題的研究目標(biāo)、研究內(nèi)容、研究方法、研究手段和進(jìn)度安排,實驗方案的可行性分析和已具備的實驗條件以及主要參考文獻(xiàn)等。)一.課題的來源及意義互聯(lián)網(wǎng)是一個龐大的非結(jié)構(gòu)化的數(shù)據(jù)庫,將數(shù)據(jù)有效的檢索并組織呈現(xiàn)出來有著巨大的應(yīng)用前景。搜索引擎作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性。不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。為了解決這個問題,一個靈活的爬蟲有著無可替代的重要意義。二.國內(nèi)外發(fā)展?fàn)顩r對于網(wǎng)絡(luò)爬蟲

6、的研究從上世紀(jì)九十年代就開始了,目前爬蟲技術(shù)已經(jīng)趨見成熟,網(wǎng)絡(luò)爬蟲是搜索引擎的重要組成部分。網(wǎng)絡(luò)上比較著名的開源爬蟲包括Nutch,Larbin,Heritrix。網(wǎng)絡(luò)爬蟲最重要的是網(wǎng)頁搜索策略(廣度優(yōu)先和最佳度優(yōu)先)和網(wǎng)頁分析策略(基于網(wǎng)絡(luò)拓?fù)涞姆治鏊惴ê突诰W(wǎng)頁內(nèi)容的網(wǎng)頁分析算法)。三.研究目標(biāo)本論文主要研究搜索引擎的搜索器(網(wǎng)絡(luò)爬蟲程序)的設(shè)計與實現(xiàn),實現(xiàn)簡單的可在后臺自動運(yùn)行的爬蟲程序。1.可以多線程進(jìn)行抓取。2.可以進(jìn)行面向主題的抓取。四.研究內(nèi)容本課題研究的內(nèi)容是如何使網(wǎng)絡(luò)爬蟲靈活高效。1.如何具備更強(qiáng)的抓取能力。2.如何分辨重復(fù)的網(wǎng)頁內(nèi)容。3.如何確定主題相關(guān)性。4.對于

7、網(wǎng)絡(luò)時延等的處理。五.研究方法網(wǎng)絡(luò)爬蟲應(yīng)用寬度搜索技術(shù)。對url進(jìn)行分析,去重。網(wǎng)絡(luò)爬蟲使用多線程技術(shù),讓爬蟲具備更強(qiáng)大的抓取能力。網(wǎng)絡(luò)爬蟲還要完成信息提取任務(wù),對于抓取回來的網(wǎng)頁提取出來新聞等信息。對網(wǎng)絡(luò)爬蟲的連接網(wǎng)絡(luò)設(shè)置連接及讀取時間,避免無限制的等待。研究網(wǎng)絡(luò)爬蟲的原理并實現(xiàn)爬蟲的相關(guān)功能。六.研究手段參考網(wǎng)上開源的網(wǎng)絡(luò)爬蟲和各種網(wǎng)絡(luò)爬蟲相關(guān)的書籍,在windows系統(tǒng)環(huán)境下開發(fā)。五.本課題進(jìn)度安排:2010.12.20—2011.03.

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。