定向網(wǎng)絡(luò)爬蟲開題報(bào)告

定向網(wǎng)絡(luò)爬蟲開題報(bào)告

ID:8914005

大?。?7.00 KB

頁數(shù):8頁

時(shí)間:2018-04-12

定向網(wǎng)絡(luò)爬蟲開題報(bào)告_第1頁
定向網(wǎng)絡(luò)爬蟲開題報(bào)告_第2頁
定向網(wǎng)絡(luò)爬蟲開題報(bào)告_第3頁
定向網(wǎng)絡(luò)爬蟲開題報(bào)告_第4頁
定向網(wǎng)絡(luò)爬蟲開題報(bào)告_第5頁
資源描述:

《定向網(wǎng)絡(luò)爬蟲開題報(bào)告》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫

1、山東科技大學(xué)本科畢業(yè)設(shè)計(jì)(論文)開題報(bào)告題目網(wǎng)絡(luò)爬蟲定向爬取?腳本之家?文本信息學(xué)院名稱信息科學(xué)與工程學(xué)院專業(yè)班級(jí)計(jì)算機(jī)科學(xué)與技術(shù)2012級(jí)2班學(xué)生姓名包志英學(xué)號(hào)201201050201指導(dǎo)教師趙中英填表時(shí)間:二0一六年三月二十八日設(shè)計(jì)(論文)題目網(wǎng)絡(luò)爬蟲?定向爬取腳本之家文本信息設(shè)計(jì)(論文)類型(劃“√”)工程設(shè)計(jì)應(yīng)用研究開發(fā)研究基礎(chǔ)研究其它√一、本課題的研究目的和意義本課題的主要目的是設(shè)計(jì)面向主題的網(wǎng)絡(luò)爬蟲程序,同時(shí)需要滿足的是具有一定的性能,要考慮到網(wǎng)絡(luò)爬蟲的各種需求。網(wǎng)絡(luò)爬蟲主體網(wǎng)站的特

2、性。對(duì)url進(jìn)行構(gòu)造。網(wǎng)絡(luò)爬蟲使用scrapy實(shí)現(xiàn)多線程,讓爬蟲具備更強(qiáng)大的抓取能力和靈活性。網(wǎng)絡(luò)爬蟲要實(shí)現(xiàn)對(duì)特定主題的爬取。網(wǎng)絡(luò)爬蟲還要完成信息提取任務(wù),對(duì)于抓取回來的網(wǎng)頁提取出來:新聞、電子圖書、行業(yè)信息等。對(duì)網(wǎng)絡(luò)爬蟲的連接網(wǎng)絡(luò)設(shè)置連接及讀取時(shí)間,避免無限制的等待。研究網(wǎng)絡(luò)爬蟲的原理并實(shí)現(xiàn)爬蟲的相關(guān)功能。最終實(shí)現(xiàn)的網(wǎng)絡(luò)爬蟲應(yīng)該能根據(jù)設(shè)定的主題,從構(gòu)造的url進(jìn)行一定數(shù)據(jù)爬取,并最終得到需要的數(shù)據(jù)互聯(lián)網(wǎng)是一個(gè)龐大的非結(jié)構(gòu)化的數(shù)據(jù)庫,將數(shù)據(jù)有效的檢索并組織呈現(xiàn)出來有著巨大的應(yīng)用前景。搜索引擎作為

3、一個(gè)輔助人們檢索信息的工具。但是,這些通用性搜索引擎也存在著一定的局限性。不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。為了解決這個(gè)問題,一個(gè)靈活的爬蟲有著無可替代的重要意義。一、本課題的主要研究?jī)?nèi)容(提綱)本課題研究的內(nèi)容是如何使網(wǎng)絡(luò)爬蟲靈活高效。1.如何更具網(wǎng)站主體特性不同構(gòu)造URL。2.如何具備更強(qiáng)的抓取能力。3.如何分辨重復(fù)的網(wǎng)頁內(nèi)容。4.如何確定主題相關(guān)性。5.對(duì)于對(duì)線程并發(fā)的處理。6.對(duì)于緩存和并發(fā)請(qǐng)求的處理7.對(duì)反扒機(jī)制的應(yīng)

4、對(duì)8.對(duì)于網(wǎng)絡(luò)時(shí)延等的處理。9.對(duì)于數(shù)據(jù)的存儲(chǔ)格式與形式三、文獻(xiàn)綜述(國(guó)內(nèi)外研究情況及其發(fā)展)對(duì)于網(wǎng)絡(luò)爬蟲的研究從上世紀(jì)九十年代就開始了,目前爬蟲技術(shù)已經(jīng)趨見成熟,網(wǎng)絡(luò)爬蟲是搜索引擎的重要組成部分。網(wǎng)絡(luò)上比較著名的開源爬蟲包括Nutch,Larbin,Heritrix。網(wǎng)絡(luò)爬蟲最重要的是網(wǎng)頁搜索策略(廣度優(yōu)先和最佳度優(yōu)先)和網(wǎng)頁分析策略(基于網(wǎng)絡(luò)拓?fù)涞姆治鏊惴ê突诰W(wǎng)頁內(nèi)容的網(wǎng)頁分析算法)。國(guó)內(nèi)外流行的爬蟲技術(shù)相當(dāng)多,很多人喜歡基于Python的,也有人喜歡用C#,很多人由于系統(tǒng)集成開發(fā)和跨平臺(tái)

5、的需要傾向于java,我跟喜歡用Python。就原理來說,爬蟲組件都是差不多的,無頭瀏覽器,最能夠說明爬蟲的特性,它們被設(shè)計(jì)創(chuàng)造出來,大部分情況是用于自動(dòng)化測(cè)試的?;趕ocket的httpclient功能簡(jiǎn)單,性能強(qiáng)大,特別是在高并發(fā)的情況下,而被大家所青睞,特別是搜索引擎中,如果抓取靜態(tài)頁面,httpclient非常適合。當(dāng)遇到ajax加載的信息,就需要javascript效果渲染的時(shí)候,httpclient就不行了,htmlunit是基于httpclient加入Rhino引擎實(shí)現(xiàn)js渲染的

6、無頭瀏覽器,當(dāng)然包含了httpclient的特性,然而,由于內(nèi)存泄露的問題,高并發(fā)的狀態(tài)下,并不能很穩(wěn)定的工作,內(nèi)存消耗隨著程序的運(yùn)行而不斷增大,直到達(dá)到j(luò)vm分配的上限而崩潰。很多時(shí)候,你只能做個(gè)權(quán)衡,每個(gè)webclient使用若干次后就把它回收,然后重新啟動(dòng)一個(gè),這非常影響性能。Rhino對(duì)于javascript的支持并不好,實(shí)際使用中,會(huì)發(fā)現(xiàn)各種Exception,很多時(shí)候會(huì)導(dǎo)致無法渲染出想要的結(jié)果,這個(gè)htmlunit的又一大缺陷。隨著版本的更新,能夠漸次解決一些問題,但是好的程序員,還

7、是應(yīng)該自己讀源碼來嘗試解決問題。Phantomjs相比于htmlunit,對(duì)于js的支持更接近真實(shí)的瀏覽器,但是并發(fā)性能差,通過java的exec調(diào)用系統(tǒng)命令來啟動(dòng),更加降低了性能。此外主流的瀏覽器都提供了相應(yīng)的抓取支持,selenium可謂是一個(gè)集大成者,包含了上述的所有組件,以WebDriver的形式,適配各種爬蟲組件,你可以用它操控瀏覽器自動(dòng)抓取,當(dāng)然,并發(fā)和性能的問題依然存在。爬蟲開發(fā)的主要問題是性能和反封鎖。很多時(shí)候,采用高并發(fā)高頻率抓取數(shù)據(jù)是可行的,前提是目標(biāo)站點(diǎn)沒有采用任何反爬措施

8、(訪問頻率限制、防火墻、驗(yàn)證碼……);更多時(shí)候,有價(jià)值的信息,一定伴隨著嚴(yán)格的反爬措施,一旦ip被封,什么組件都沒戲了。你不得不維護(hù)一個(gè)代理IP池來解決這個(gè)問題,當(dāng)然,這也帶來了代理ip穩(wěn)定性和速度的問題,這些問題都是無法回避的問題,我們需要針對(duì)具體的情況,采用對(duì)應(yīng)的措施,以最大限度的完成爬蟲爬取任務(wù)。目前,爬蟲的需求呈爆炸式增長(zhǎng)的趨勢(shì),這是當(dāng)前各種互聯(lián)網(wǎng)創(chuàng)新和大數(shù)據(jù)時(shí)代的新常態(tài)?;疖嚭桶俗︳~等團(tuán)隊(duì)看到了這一點(diǎn),并率先開發(fā)了相對(duì)完備的爬蟲產(chǎn)品,很多用戶都在使用,但是更多的用戶希望直接把爬蟲抓取任

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。