畢設(shè)開(kāi)題報(bào)告及開(kāi)題報(bào)告分析

畢設(shè)開(kāi)題報(bào)告及開(kāi)題報(bào)告分析

ID:47215928

大小:50.90 KB

頁(yè)數(shù):8頁(yè)

時(shí)間:2019-08-27

畢設(shè)開(kāi)題報(bào)告及開(kāi)題報(bào)告分析_第1頁(yè)
畢設(shè)開(kāi)題報(bào)告及開(kāi)題報(bào)告分析_第2頁(yè)
畢設(shè)開(kāi)題報(bào)告及開(kāi)題報(bào)告分析_第3頁(yè)
畢設(shè)開(kāi)題報(bào)告及開(kāi)題報(bào)告分析_第4頁(yè)
畢設(shè)開(kāi)題報(bào)告及開(kāi)題報(bào)告分析_第5頁(yè)
資源描述:

《畢設(shè)開(kāi)題報(bào)告及開(kāi)題報(bào)告分析》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫(kù)。

1、開(kāi)題報(bào)告如何寫(xiě)注意點(diǎn)1?一、對(duì)指導(dǎo)教師下達(dá)的課題任務(wù)的學(xué)習(xí)與理解這部分主要是闡述做本課題的重要意義2.二、閱讀文獻(xiàn)資料進(jìn)行調(diào)研的綜述這部分就是對(duì)課題相關(guān)的研究的綜述落腳于本課題解決了那些關(guān)鍵問(wèn)題3?三、根據(jù)任務(wù)書(shū)的任務(wù)及文件調(diào)研結(jié)果,初步擬定執(zhí)行實(shí)施的方案(含具體進(jìn)度計(jì)劃)這部分重點(diǎn)寫(xiě)具體實(shí)現(xiàn)的技術(shù)路線方案的具體實(shí)施方法和步驟了,具體進(jìn)度計(jì)劃只是附在后面的東西不是重點(diǎn)南京郵電大學(xué)通達(dá)學(xué)院畢業(yè)設(shè)計(jì)(論文)開(kāi)題報(bào)告題目基于python的網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)學(xué)生姓名徐亞洲班級(jí)學(xué)號(hào)12003426專業(yè)軟件工程一、對(duì)指導(dǎo)教師下達(dá)的課題任務(wù)的學(xué)習(xí)與理解

2、隨著網(wǎng)絡(luò)的快速發(fā)展和廣泛應(yīng)川,大數(shù)據(jù)時(shí)代的到來(lái),網(wǎng)絡(luò)就像一個(gè)巨人的數(shù)據(jù)寶庫(kù),如何快速獲取其中的數(shù)據(jù)資源成為亟待完成的新需求。然而網(wǎng)絡(luò)上的信息資源大多是無(wú)組織并J1動(dòng)態(tài)變化的,光靠管理員手工去管理,很難將這些龐人,繁雜的數(shù)據(jù)進(jìn)行有效的保存和利川,這就促使了網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的興起。網(wǎng)絡(luò)爬蟲(chóng)源£1Spider(或Crawler、robots)等的意譯。網(wǎng)絡(luò)爬蟲(chóng)的定義有廣義和狹義之分,狹義的定義為:利用標(biāo)準(zhǔn)的hup協(xié)議,根據(jù)超鏈接和Web文檔檢索的方法遍歷力維網(wǎng)信息空間的軟件程序。廣義的定義為:所有能利川http協(xié)議檢索Web文檔的軟件都稱之為網(wǎng)絡(luò)爬蟲(chóng)。網(wǎng)

3、絡(luò)爬蟲(chóng)又被稱為做網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人,主耍用于網(wǎng)絡(luò)資源的收集工作。是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳木。另外一些不常使川的名字還冇螞蟻、自動(dòng)索引、模擬程序或者蠕蟲(chóng)。網(wǎng)絡(luò)爬蟲(chóng)己經(jīng)發(fā)展了很多年,并且搜索引擎也是爬蟲(chóng)的一種應(yīng)川,通過(guò)搜索引擎能夠更快速的獲得有用的數(shù)據(jù)和信息。但是,一些通用性的搜索引擎也存在著一定的局限性,通用搜索引擎返冋的結(jié)果町能包含了人量丿IJ戶不關(guān)心的網(wǎng)頁(yè)內(nèi)容,而且通川搜索引擎有限的服務(wù)器資源與無(wú)限的網(wǎng)絡(luò)資源之間存在的矛盾進(jìn)一步加深,述有,就是通用搜索引擎不能支持給據(jù)語(yǔ)義的信息提出的查詢和搜索。所以學(xué)習(xí)網(wǎng)絡(luò)爬蟲(chóng)

4、有很大的意義。因此,本課題基于Python編寫(xiě)基本的爬蟲(chóng)系統(tǒng),用于網(wǎng)路爬蟲(chóng)的入門,為以后的爬蟲(chóng)學(xué)習(xí)奠定基礎(chǔ)。所以,對(duì)于本課題我設(shè)計(jì)并實(shí)現(xiàn)以個(gè)關(guān)于入門爬蟲(chóng)的系統(tǒng)一基于python的豆瓣網(wǎng)爬蟲(chóng)系統(tǒng)。二、閱讀文獻(xiàn)資料進(jìn)行調(diào)研的綜述網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)功能很強(qiáng)人的白動(dòng)捉取網(wǎng)頁(yè)的程序,它為搜索引擎從萬(wàn)維網(wǎng)卜-載網(wǎng)頁(yè),是搜索引擎的重要組成部分。它通過(guò)請(qǐng)求站點(diǎn)上的h(ml文檔訪問(wèn)某一個(gè)站點(diǎn)。它遍歷Web空間,不斷從一個(gè)站點(diǎn)移動(dòng)到另一個(gè)站點(diǎn),自動(dòng)建立索引,并加入到網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中。網(wǎng)絡(luò)爬蟲(chóng)進(jìn)入某個(gè)超級(jí)文木時(shí),利用html語(yǔ)言的標(biāo)記結(jié)構(gòu)來(lái)搜索信息,及獲取指向其他超級(jí)文本的

5、url地址,可以完全不依賴于用戶的干預(yù)實(shí)現(xiàn)網(wǎng)絡(luò)上的白動(dòng)“爬行”和搜索。木課題需要用MySQL來(lái)存取從網(wǎng)頁(yè)上抓去到的數(shù)據(jù),文獻(xiàn)⑴講述了MySQL數(shù)據(jù)庫(kù)的入門知識(shí),該,學(xué)習(xí)該文獻(xiàn)能夠做到MySQL數(shù)據(jù)庫(kù)的基本存取操作,滿足本課題的實(shí)際操作要求。文獻(xiàn)[2]和文獻(xiàn)⑶講述了Python的入門教程和Python的編程入門,通過(guò)學(xué)習(xí)文獻(xiàn)可以了解Python的基本語(yǔ)法和Python的基本編程方法,對(duì)于本課題程序編寫(xiě),能夠擁有大概的思路和想法。文獻(xiàn)⑷屮提供了開(kāi)發(fā)了一款支持并行的微博數(shù)據(jù)抓取工具的基本思路,該工具可以實(shí)時(shí)抓取微博中指定用戶的粉絲信息、微I専正文等內(nèi)

6、容;該工具利用關(guān)鍵字匹配技術(shù),匹配符合規(guī)定條件的微燭,并抓取相關(guān)內(nèi)容。并且支持并行抓取信息。并行爬蟲(chóng)擁有較好的加速比,對(duì)以快速抓取數(shù)據(jù)。文獻(xiàn)[5]棊于信息數(shù)據(jù)分析的微博研究綜述[J];研究微博信息數(shù)據(jù)的分析,在這類研究中,大多數(shù)以微博消息傳播的三大構(gòu)件…微燭消息、用戶、用戶關(guān)系為研究對(duì)象。以微博消息傳播和微博成員組織為主要研究?jī)?nèi)容,目的在于發(fā)祥微博屮用戶、消息傳博、熱點(diǎn)話題、用戶關(guān)系網(wǎng)絡(luò)等的規(guī)律?;谖⒉┬畔?shù)據(jù)分析的研究近年來(lái)在國(guó)內(nèi)外都取得了很多成果,掌握了微博小的大量特征。該文獻(xiàn)從微博消息傳播三人構(gòu)件的角度,對(duì)當(dāng)前基于信息數(shù)據(jù)分析的微博研究

7、進(jìn)行系統(tǒng)梳理,提出微博信息傳播三大構(gòu)件的概念,歸納了此類研究的主耍研究?jī)?nèi)容及方法。對(duì)于人多用戶提出的與主題或領(lǐng)域相關(guān)的查詢需求,傳統(tǒng)的通用搜索引擎往往不能提供令人滿意的結(jié)果網(wǎng)頁(yè)。為了克服通用搜索引擎的以上不足,提出了而向主題的聚焦爬蟲(chóng)的研究。文獻(xiàn)[6]綜述了聚焦爬蟲(chóng)技術(shù)的研究。其中介紹并分析了聚焦爬蟲(chóng)中的關(guān)鍵技術(shù):抓取目標(biāo)定義與描述,網(wǎng)頁(yè)分析算法和網(wǎng)頁(yè)分析策略,并根據(jù)網(wǎng)絡(luò)拓?fù)?、網(wǎng)貝數(shù)據(jù)內(nèi)容、用戶行為等方面將各種網(wǎng)頁(yè)分析算法做了分類和比較。聚焦爬蟲(chóng)能夠克服通用爬蟲(chóng)的不足Z處。文獻(xiàn)[7]首先介紹了網(wǎng)絡(luò)爬蟲(chóng)工作原理,傳統(tǒng)網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)過(guò)程,并對(duì)網(wǎng)絡(luò)爬

8、蟲(chóng)屮使用的關(guān)鍵技術(shù)進(jìn)行了研究,包括網(wǎng)頁(yè)搜索策略、URL去重算法、網(wǎng)頁(yè)分析技術(shù)、更新策略等。然后針對(duì)微博的特點(diǎn)和Ajax技術(shù)的實(shí)現(xiàn)方法,指出傳統(tǒng)網(wǎng)絡(luò)爬蟲(chóng)

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。