資源描述:
《網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、畢業(yè)設(shè)計(論文)說明書學(xué)院軟件學(xué)院專業(yè)軟件工程年級2007姓名張鳳龍指導(dǎo)教師陳錦言2011年3月6日畢業(yè)設(shè)計(論文)任務(wù)書題目:網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)學(xué)生姓名張鳳龍學(xué)院名稱軟件學(xué)院專業(yè)軟件工程學(xué)號3007218139指導(dǎo)教師陳錦言職稱講師一、原始依據(jù)(包括設(shè)計或論文的工作基礎(chǔ)、研究條件、應(yīng)用環(huán)境、工作目的等。)互聯(lián)網(wǎng)是一個龐大的非結(jié)構(gòu)化的數(shù)據(jù)庫,將數(shù)據(jù)有效的檢索并組織呈現(xiàn)出來有著巨大的應(yīng)用前景。搜索引擎作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性。不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返
2、回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。所以需要一個能基于主題搜索的滿足特定需求的網(wǎng)絡(luò)爬蟲。為了解決上述問題,參照成功的網(wǎng)絡(luò)爬蟲模式,對網(wǎng)絡(luò)爬蟲進(jìn)行研究,從而能夠為網(wǎng)絡(luò)爬蟲實現(xiàn)更深入的主題相關(guān)性,提供滿足特定搜索需求的網(wǎng)絡(luò)爬蟲。二、參考文獻(xiàn)[1]Winter.中文搜索引擎技術(shù)解密:網(wǎng)絡(luò)蜘蛛[M].北京:人民郵電出版社,2004年.[2]Sergey等.TheAnatomyofaLarge-ScaleHypertextualWebSearchEngine[M].北京:清華大學(xué)出版社,1998年.[3]Wisenut.WiseNutSearchEnginewhitepaper[M].
3、北京:中國電力出版社,2001年.[4]GaryR.WrightW.RichardStevens.TCP-IP協(xié)議詳解卷3:TCP事務(wù)協(xié)議,HTTP,NNTP和UNIX域協(xié)議[M].北京:機(jī)械工業(yè)出版社,2002年1月.[5]羅剛王振東.自己動手寫網(wǎng)絡(luò)爬蟲[M].北京:清華大學(xué)出版社,2010年10月.[6]李曉明,閆宏飛,王繼民.搜索引擎:原理、技術(shù)與系統(tǒng)——華夏英才基金學(xué)術(shù)文庫[M].北京:科學(xué)出版社,2005年04月.三、設(shè)計(研究)內(nèi)容和要求(包括設(shè)計或研究內(nèi)容、主要指標(biāo)與技術(shù)參數(shù),并根據(jù)課題性質(zhì)對學(xué)生提出具體要求。)本課題的主要目的是設(shè)計面向主題的網(wǎng)絡(luò)爬蟲程序,同
4、時需要滿足的是具有一定的性能,要考慮到網(wǎng)絡(luò)爬蟲的各種需求。網(wǎng)絡(luò)爬蟲應(yīng)用寬度搜索技術(shù)。對url進(jìn)行分析,去重。網(wǎng)絡(luò)爬蟲使用多線程技術(shù),讓爬蟲具備更強(qiáng)大的抓取能力。網(wǎng)絡(luò)爬蟲要實現(xiàn)對特定主題的爬取。網(wǎng)絡(luò)爬蟲還要完成信息提取任務(wù),對于抓取回來的網(wǎng)頁提取出來:新聞、電子圖書、行業(yè)信息等。對網(wǎng)絡(luò)爬蟲的連接網(wǎng)絡(luò)設(shè)置連接及讀取時間,避免無限制的等待。研究網(wǎng)絡(luò)爬蟲的原理并實現(xiàn)爬蟲的相關(guān)功能。最終實現(xiàn)的網(wǎng)絡(luò)爬蟲應(yīng)該能根據(jù)設(shè)定的主題,從設(shè)定的url進(jìn)行一定深度的搜索,并最終得到需要的數(shù)據(jù)。指導(dǎo)教師(簽字)年月日審題小組組長(簽字)年月日天津大學(xué)本科生畢業(yè)設(shè)計(論文)開題報告課題名稱網(wǎng)絡(luò)爬蟲設(shè)計與
5、實現(xiàn)學(xué)院名稱軟件學(xué)院專業(yè)名稱軟件工程學(xué)生姓名張鳳龍指導(dǎo)教師陳錦言(內(nèi)容包括:課題的來源及意義,國內(nèi)外發(fā)展?fàn)顩r,本課題的研究目標(biāo)、研究內(nèi)容、研究方法、研究手段和進(jìn)度安排,實驗方案的可行性分析和已具備的實驗條件以及主要參考文獻(xiàn)等。)一.課題的來源及意義互聯(lián)網(wǎng)是一個龐大的非結(jié)構(gòu)化的數(shù)據(jù)庫,將數(shù)據(jù)有效的檢索并組織呈現(xiàn)出來有著巨大的應(yīng)用前景。搜索引擎作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性。不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。為了解決這個問題,一個靈活
6、的爬蟲有著無可替代的重要意義。二.國內(nèi)外發(fā)展?fàn)顩r對于網(wǎng)絡(luò)爬蟲的研究從上世紀(jì)九十年代就開始了,目前爬蟲技術(shù)已經(jīng)趨見成熟,網(wǎng)絡(luò)爬蟲是搜索引擎的重要組成部分。網(wǎng)絡(luò)上比較著名的開源爬蟲包括Nutch,Larbin,Heritrix。網(wǎng)絡(luò)爬蟲最重要的是網(wǎng)頁搜索策略(廣度優(yōu)先和最佳度優(yōu)先)和網(wǎng)頁分析策略(基于網(wǎng)絡(luò)拓?fù)涞姆治鏊惴ê突诰W(wǎng)頁內(nèi)容的網(wǎng)頁分析算法)。三.研究目標(biāo)本論文主要研究搜索引擎的搜索器(網(wǎng)絡(luò)爬蟲程序)的設(shè)計與實現(xiàn),實現(xiàn)簡單的可在后臺自動運(yùn)行的爬蟲程序。1.可以多線程進(jìn)行抓取。2.可以進(jìn)行面向主題的抓取。四.研究內(nèi)容本課題研究的內(nèi)容是如何使網(wǎng)絡(luò)爬蟲靈活高效。1.如何具備更強(qiáng)
7、的抓取能力。2.如何分辨重復(fù)的網(wǎng)頁內(nèi)容。3.如何確定主題相關(guān)性。4.對于網(wǎng)絡(luò)時延等的處理。五.研究方法網(wǎng)絡(luò)爬蟲應(yīng)用寬度搜索技術(shù)。對url進(jìn)行分析,去重。網(wǎng)絡(luò)爬蟲使用多線程技術(shù),讓爬蟲具備更強(qiáng)大的抓取能力。網(wǎng)絡(luò)爬蟲還要完成信息提取任務(wù),對于抓取回來的網(wǎng)頁提取出來新聞等信息。對網(wǎng)絡(luò)爬蟲的連接網(wǎng)絡(luò)設(shè)置連接及讀取時間,避免無限制的等待。研究網(wǎng)絡(luò)爬蟲的原理并實現(xiàn)爬蟲的相關(guān)功能。六.研究手段參考網(wǎng)上開源的網(wǎng)絡(luò)爬蟲和各種網(wǎng)絡(luò)爬蟲相關(guān)的書籍,在windows系統(tǒng)環(huán)境下開發(fā)。五.本課題進(jìn)度安排:2010.12.20—2011.03.