爬蟲開題報(bào)告

ID：82615813

大?。?5.50 KB

頁數(shù)：1頁

時(shí)間：2022-10-28

資源描述：

《爬蟲開題報(bào)告》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、一、國內(nèi)外發(fā)展形勢隨著數(shù)據(jù)科學(xué)的迅速發(fā)展，諸如機(jī)器學(xué)習(xí)，人工智能等新興技術(shù)極大地方便了人們的生活。來越多的應(yīng)用涉及到大數(shù)據(jù)，而這些大數(shù)據(jù)的屬性、包括數(shù)量、速度、多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復(fù)雜性。從而，大數(shù)據(jù)的獲取和分析在大數(shù)據(jù)領(lǐng)域就顯得尤為重要，可以說是決定最終信息是否有價(jià)值的決定性因素。萬維網(wǎng)上有著無數(shù)的網(wǎng)頁，包含著海量的信息，無孔不入、森羅萬象。但很多時(shí)候，無論出于數(shù)據(jù)分析或產(chǎn)品需求，我們需要從某些網(wǎng)站，提取出我們感興趣、有價(jià)值的內(nèi)容，但是縱然是進(jìn)化到21世紀(jì)的人類，依然只有兩只手，一雙眼

2、，不可能去每一個(gè)網(wǎng)頁去點(diǎn)去看，然后再復(fù)制粘貼。所以我們需要一種能自動(dòng)獲取網(wǎng)頁內(nèi)容并可以按照指定規(guī)則提取相應(yīng)內(nèi)容的程序，這就是爬蟲。爬蟲本身不區(qū)分到底是運(yùn)行在windows還是Linux，又或是OSX，但從業(yè)務(wù)角度講，我們把運(yùn)行在服務(wù)端(后臺(tái))的，稱之為后臺(tái)爬蟲。而現(xiàn)在，幾乎所有的爬蟲都是后臺(tái)爬蟲。而爬蟲數(shù)據(jù)獲取的基礎(chǔ)，經(jīng)過這么多年的發(fā)展，除了面對(duì)surfaceweb（即表層Web，由網(wǎng)頁溝通，網(wǎng)頁之間通過超鏈接關(guān)聯(lián)）的常用爬蟲，各種面對(duì)垂直領(lǐng)域和特定主題的爬蟲（focusedcrawler)成為熱點(diǎn)。二

3、、項(xiàng)目解決了什么問題及創(chuàng)新點(diǎn)本項(xiàng)目解決了數(shù)據(jù)科學(xué)所依賴的數(shù)據(jù)來源的問題，幫助數(shù)據(jù)科學(xué)工作者獲取更多更有價(jià)值的數(shù)據(jù)。同時(shí)，本項(xiàng)目聚焦于新浪微博、拉勾網(wǎng)、房天下等各項(xiàng)極有價(jià)值的數(shù)據(jù)，利用現(xiàn)有技術(shù)在項(xiàng)目中實(shí)現(xiàn)了免登陸、多目標(biāo)爬取數(shù)據(jù)，同時(shí)針對(duì)爬取的數(shù)據(jù)進(jìn)行了初步的篩選過濾，去掉多余信息，除了可以節(jié)省本地空間之外還方便數(shù)據(jù)科學(xué)工作者對(duì)數(shù)據(jù)進(jìn)行二次清洗、提煉，從而得到更有價(jià)值的信息。本項(xiàng)目還針對(duì)爬蟲的作用機(jī)制以及設(shè)計(jì)模式進(jìn)行了優(yōu)化，采用多線程的技術(shù)可以明顯提高I/O操作的速度，同時(shí)因?yàn)椴捎昧撕线m的設(shè)計(jì)模式，可以及

4、時(shí)地將內(nèi)存中的數(shù)據(jù)導(dǎo)入到數(shù)據(jù)庫中，極大地減少了內(nèi)存資源的占用，使爬蟲程序在運(yùn)行期間，盡可能少地占用計(jì)算機(jī)資源。三、技術(shù)路線及執(zhí)行計(jì)劃理論上來說，任何支持網(wǎng)絡(luò)通信的語言都是可以寫爬蟲的，爬蟲本身雖然語言關(guān)系不大，但是，總有相對(duì)順手、簡單的。目前來說，大多數(shù)爬蟲是用后臺(tái)腳本類語言寫的，其中python無疑是用的最多最廣的，并且頁誕生了很多優(yōu)秀的庫和框架，如scrapy、BeautifulSoup、pyquery、Mechanize等。但是一般來說，搜索引擎的爬蟲對(duì)爬蟲的效率要求更高，會(huì)選用C#、C++、Ja

5、va、Go(適合高并發(fā))。本項(xiàng)目將采用Python作為爬蟲實(shí)現(xiàn)語言對(duì)爬蟲進(jìn)行編寫，同時(shí)輔以相關(guān)的功能包以及C#編寫的圖形界面。爬蟲的工作流程較為復(fù)雜，需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接，保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后，它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁URL，并重復(fù)上述過程，直到達(dá)到系統(tǒng)的某一條件時(shí)停止。另外，所有被爬蟲抓取的網(wǎng)頁將會(huì)被系統(tǒng)存貯，進(jìn)行一定的分析、過濾，并建立索引，以便之后的查詢和檢索；如果有網(wǎng)站不愿本站數(shù)據(jù)流出，則會(huì)針對(duì)爬蟲特性進(jìn)行識(shí)別，

6、將爬蟲拒之門外；所以一個(gè)完整的爬蟲一般會(huì)包含如下幾個(gè)模塊：網(wǎng)絡(luò)請求模塊、爬取流程控制模塊、內(nèi)容分析提取模塊、反爬蟲對(duì)策模塊（如果需要）。同時(shí)輔以C#編寫的圖形界面，讓爬蟲變得更加易用，對(duì)用戶更加友好。

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 / 1



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。

爬蟲開題報(bào)告

爬蟲開題報(bào)告

相關(guān)文章

相關(guān)標(biāo)簽