資源描述:
《網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)。
1、畢業(yè)設(shè)計(jì)(論文)說(shuō)明書學(xué)院軟件學(xué)院專業(yè)軟件工程年級(jí)2007姓名張鳳龍指導(dǎo)教師陳錦言2011年3月6日畢業(yè)設(shè)計(jì)(論文)任務(wù)書題目:網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)學(xué)生姓名張鳳龍學(xué)院名稱軟件學(xué)院專業(yè)軟件工程學(xué)號(hào)3007218139指導(dǎo)教師陳錦言職稱講師一、原始依據(jù)(包括設(shè)計(jì)或論文的工作基礎(chǔ)、研究條件、應(yīng)用環(huán)境、工作目的等。)互聯(lián)網(wǎng)是一個(gè)龐大的非結(jié)構(gòu)化的數(shù)據(jù)庫(kù),將數(shù)據(jù)有效的檢索并組織呈現(xiàn)出來(lái)有著巨大的應(yīng)用前景。搜索引擎作為一個(gè)輔助人們檢索信息的工具成為用戶訪問(wèn)萬(wàn)維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性。不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通
2、用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁(yè)。所以需要一個(gè)能基于主題搜索的滿足特定需求的網(wǎng)絡(luò)爬蟲。為了解決上述問(wèn)題,參照成功的網(wǎng)絡(luò)爬蟲模式,對(duì)網(wǎng)絡(luò)爬蟲進(jìn)行研究,從而能夠?yàn)榫W(wǎng)絡(luò)爬蟲實(shí)現(xiàn)更深入的主題相關(guān)性,提供滿足特定搜索需求的網(wǎng)絡(luò)爬蟲。二、參考文獻(xiàn)[1]Winter.中文搜索引擎技術(shù)解密:網(wǎng)絡(luò)蜘蛛[M].北京:人民郵電出版社,2004年.[2]Sergey等.TheAnatomyofaLarge-ScaleHypertextualWebSearchEngine[M].北京:清華大學(xué)出版社,1998年.[3]Wisenut.WiseNutSearchEngine
3、whitepaper[M].北京:中國(guó)電力出版社,2001年.[4]GaryR.WrightW.RichardStevens.TCP-IP協(xié)議詳解卷3:TCP事務(wù)協(xié)議,HTTP,NNTP和UNIX域協(xié)議[M].北京:機(jī)械工業(yè)出版社,2002年1月.[5]羅剛王振東.自己動(dòng)手寫網(wǎng)絡(luò)爬蟲[M].北京:清華大學(xué)出版社,2010年10月.[6]李曉明,閆宏飛,王繼民.搜索引擎:原理、技術(shù)與系統(tǒng)——華夏英才基金學(xué)術(shù)文庫(kù)[M].北京:科學(xué)出版社,2005年04月.三、設(shè)計(jì)(研究)內(nèi)容和要求(包括設(shè)計(jì)或研究?jī)?nèi)容、主要指標(biāo)與技術(shù)參數(shù),并根據(jù)課題性質(zhì)對(duì)學(xué)生提出具體要求。)本課題
4、的主要目的是設(shè)計(jì)面向主題的網(wǎng)絡(luò)爬蟲程序,同時(shí)需要滿足的是具有一定的性能,要考慮到網(wǎng)絡(luò)爬蟲的各種需求。網(wǎng)絡(luò)爬蟲應(yīng)用寬度搜索技術(shù)。對(duì)url進(jìn)行分析,去重。網(wǎng)絡(luò)爬蟲使用多線程技術(shù),讓爬蟲具備更強(qiáng)大的抓取能力。網(wǎng)絡(luò)爬蟲要實(shí)現(xiàn)對(duì)特定主題的爬取。網(wǎng)絡(luò)爬蟲還要完成信息提取任務(wù),對(duì)于抓取回來(lái)的網(wǎng)頁(yè)提取出來(lái):新聞、電子圖書、行業(yè)信息等。對(duì)網(wǎng)絡(luò)爬蟲的連接網(wǎng)絡(luò)設(shè)置連接及讀取時(shí)間,避免無(wú)限制的等待。研究網(wǎng)絡(luò)爬蟲的原理并實(shí)現(xiàn)爬蟲的相關(guān)功能。最終實(shí)現(xiàn)的網(wǎng)絡(luò)爬蟲應(yīng)該能根據(jù)設(shè)定的主題,從設(shè)定的url進(jìn)行一定深度的搜索,并最終得到需要的數(shù)據(jù)。指導(dǎo)教師(簽字)年月日審題小組組長(zhǎng)(簽字)年月日天津
5、大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)開(kāi)題報(bào)告課題名稱網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)學(xué)院名稱軟件學(xué)院專業(yè)名稱軟件工程學(xué)生姓名張鳳龍指導(dǎo)教師陳錦言(內(nèi)容包括:課題的來(lái)源及意義,國(guó)內(nèi)外發(fā)展?fàn)顩r,本課題的研究目標(biāo)、研究?jī)?nèi)容、研究方法、研究手段和進(jìn)度安排,實(shí)驗(yàn)方案的可行性分析和已具備的實(shí)驗(yàn)條件以及主要參考文獻(xiàn)等。)一.課題的來(lái)源及意義互聯(lián)網(wǎng)是一個(gè)龐大的非結(jié)構(gòu)化的數(shù)據(jù)庫(kù),將數(shù)據(jù)有效的檢索并組織呈現(xiàn)出來(lái)有著巨大的應(yīng)用前景。搜索引擎作為一個(gè)輔助人們檢索信息的工具成為用戶訪問(wèn)萬(wàn)維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性。不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜
6、索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁(yè)。為了解決這個(gè)問(wèn)題,一個(gè)靈活的爬蟲有著無(wú)可替代的重要意義。二.國(guó)內(nèi)外發(fā)展?fàn)顩r對(duì)于網(wǎng)絡(luò)爬蟲的研究從上世紀(jì)九十年代就開(kāi)始了,目前爬蟲技術(shù)已經(jīng)趨見(jiàn)成熟,網(wǎng)絡(luò)爬蟲是搜索引擎的重要組成部分。網(wǎng)絡(luò)上比較著名的開(kāi)源爬蟲包括Nutch,Larbin,Heritrix。網(wǎng)絡(luò)爬蟲最重要的是網(wǎng)頁(yè)搜索策略(廣度優(yōu)先和最佳度優(yōu)先)和網(wǎng)頁(yè)分析策略(基于網(wǎng)絡(luò)拓?fù)涞姆治鏊惴ê突诰W(wǎng)頁(yè)內(nèi)容的網(wǎng)頁(yè)分析算法)。三.研究目標(biāo)本論文主要研究搜索引擎的搜索器(網(wǎng)絡(luò)爬蟲程序)的設(shè)計(jì)與實(shí)現(xiàn),實(shí)現(xiàn)簡(jiǎn)單的可在后臺(tái)自動(dòng)運(yùn)行的爬蟲程序。1.可以多線程進(jìn)行抓取。2.可以進(jìn)行面
7、向主題的抓取。四.研究?jī)?nèi)容本課題研究的內(nèi)容是如何使網(wǎng)絡(luò)爬蟲靈活高效。1.如何具備更強(qiáng)的抓取能力。2.如何分辨重復(fù)的網(wǎng)頁(yè)內(nèi)容。3.如何確定主題相關(guān)性。4.對(duì)于網(wǎng)絡(luò)時(shí)延等的處理。五.研究方法網(wǎng)絡(luò)爬蟲應(yīng)用寬度搜索技術(shù)。對(duì)url進(jìn)行分析,去重。網(wǎng)絡(luò)爬蟲使用多線程技術(shù),讓爬蟲具備更強(qiáng)大的抓取能力。網(wǎng)絡(luò)爬蟲還要完成信息提取任務(wù),對(duì)于抓取回來(lái)的網(wǎng)頁(yè)提取出來(lái)新聞等信息。對(duì)網(wǎng)絡(luò)爬蟲的連接網(wǎng)絡(luò)設(shè)置連接及讀取時(shí)間,避免無(wú)限制的等待。研究網(wǎng)絡(luò)爬蟲的原理并實(shí)現(xiàn)爬蟲的相關(guān)功能。六.研究手段參考網(wǎng)上開(kāi)源的網(wǎng)絡(luò)爬蟲和各種網(wǎng)絡(luò)爬蟲相關(guān)的書籍,在windows系統(tǒng)環(huán)境下開(kāi)發(fā)。五.本課題進(jìn)度安排:
8、2010.12.20—2011.03.