爬蟲開題報(bào)告

爬蟲開題報(bào)告

ID:82615813

大?。?5.50 KB

頁數(shù):1頁

時(shí)間:2022-10-28

爬蟲開題報(bào)告_第1頁
資源描述:

《爬蟲開題報(bào)告》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、一、國內(nèi)外發(fā)展形勢隨著數(shù)據(jù)科學(xué)的迅速發(fā)展,諸如機(jī)器學(xué)習(xí),人工智能等新興技術(shù)極大地方便了人們的生活。來越多的應(yīng)用涉及到大數(shù)據(jù),而這些大數(shù)據(jù)的屬性、包括數(shù)量、速度、多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復(fù)雜性。從而,大數(shù)據(jù)的獲取和分析在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說是決定最終信息是否有價(jià)值的決定性因素。萬維網(wǎng)上有著無數(shù)的網(wǎng)頁,包含著海量的信息,無孔不入、森羅萬象。但很多時(shí)候,無論出于數(shù)據(jù)分析或產(chǎn)品需求,我們需要從某些網(wǎng)站,提取出我們感興趣、有價(jià)值的內(nèi)容,但是縱然是進(jìn)化到21世紀(jì)的人類,依然只有兩只手,一雙眼

2、,不可能去每一個(gè)網(wǎng)頁去點(diǎn)去看,然后再復(fù)制粘貼。所以我們需要一種能自動(dòng)獲取網(wǎng)頁內(nèi)容并可以按照指定規(guī)則提取相應(yīng)內(nèi)容的程序,這就是爬蟲。爬蟲本身不區(qū)分到底是運(yùn)行在windows還是Linux,又或是OSX,但從業(yè)務(wù)角度講,我們把運(yùn)行在服務(wù)端(后臺(tái))的,稱之為后臺(tái)爬蟲。而現(xiàn)在,幾乎所有的爬蟲都是后臺(tái)爬蟲。而爬蟲數(shù)據(jù)獲取的基礎(chǔ),經(jīng)過這么多年的發(fā)展,除了面對(duì)surfaceweb(即表層Web,由網(wǎng)頁溝通,網(wǎng)頁之間通過超鏈接關(guān)聯(lián))的常用爬蟲,各種面對(duì)垂直領(lǐng)域和特定主題的爬蟲(focusedcrawler)成為熱點(diǎn)。二

3、、項(xiàng)目解決了什么問題及創(chuàng)新點(diǎn)本項(xiàng)目解決了數(shù)據(jù)科學(xué)所依賴的數(shù)據(jù)來源的問題,幫助數(shù)據(jù)科學(xué)工作者獲取更多更有價(jià)值的數(shù)據(jù)。同時(shí),本項(xiàng)目聚焦于新浪微博、拉勾網(wǎng)、房天下等各項(xiàng)極有價(jià)值的數(shù)據(jù),利用現(xiàn)有技術(shù)在項(xiàng)目中實(shí)現(xiàn)了免登陸、多目標(biāo)爬取數(shù)據(jù),同時(shí)針對(duì)爬取的數(shù)據(jù)進(jìn)行了初步的篩選過濾,去掉多余信息,除了可以節(jié)省本地空間之外還方便數(shù)據(jù)科學(xué)工作者對(duì)數(shù)據(jù)進(jìn)行二次清洗、提煉,從而得到更有價(jià)值的信息。本項(xiàng)目還針對(duì)爬蟲的作用機(jī)制以及設(shè)計(jì)模式進(jìn)行了優(yōu)化,采用多線程的技術(shù)可以明顯提高I/O操作的速度,同時(shí)因?yàn)椴捎昧撕线m的設(shè)計(jì)模式,可以及

4、時(shí)地將內(nèi)存中的數(shù)據(jù)導(dǎo)入到數(shù)據(jù)庫中,極大地減少了內(nèi)存資源的占用,使爬蟲程序在運(yùn)行期間,盡可能少地占用計(jì)算機(jī)資源。三、技術(shù)路線及執(zhí)行計(jì)劃理論上來說,任何支持網(wǎng)絡(luò)通信的語言都是可以寫爬蟲的,爬蟲本身雖然語言關(guān)系不大,但是,總有相對(duì)順手、簡單的。目前來說,大多數(shù)爬蟲是用后臺(tái)腳本類語言寫的,其中python無疑是用的最多最廣的,并且頁誕生了很多優(yōu)秀的庫和框架,如scrapy、BeautifulSoup、pyquery、Mechanize等。但是一般來說,搜索引擎的爬蟲對(duì)爬蟲的效率要求更高,會(huì)選用C#、C++、Ja

5、va、Go(適合高并發(fā))。本項(xiàng)目將采用Python作為爬蟲實(shí)現(xiàn)語言對(duì)爬蟲進(jìn)行編寫,同時(shí)輔以相關(guān)的功能包以及C#編寫的圖形界面。爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止。另外,所有被爬蟲抓取的網(wǎng)頁將會(huì)被系統(tǒng)存貯,進(jìn)行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;如果有網(wǎng)站不愿本站數(shù)據(jù)流出,則會(huì)針對(duì)爬蟲特性進(jìn)行識(shí)別,

6、將爬蟲拒之門外;所以一個(gè)完整的爬蟲一般會(huì)包含如下幾個(gè)模塊:網(wǎng)絡(luò)請求模塊、爬取流程控制模塊、內(nèi)容分析提取模塊、反爬蟲對(duì)策模塊(如果需要)。同時(shí)輔以C#編寫的圖形界面,讓爬蟲變得更加易用,對(duì)用戶更加友好。

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。