資源描述:
《畢設(shè)開題報(bào)告及開題報(bào)告分析》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。
1、開題報(bào)告如何寫注意點(diǎn)1?一、對(duì)指導(dǎo)教師下達(dá)的課題任務(wù)的學(xué)習(xí)與理解這部分主要是闡述做本課題的重要意義2.二、閱讀文獻(xiàn)資料進(jìn)行調(diào)研的綜述這部分就是對(duì)課題相關(guān)的研究的綜述落腳于本課題解決了那些關(guān)鍵問題3?三、根據(jù)任務(wù)書的任務(wù)及文件調(diào)研結(jié)果,初步擬定執(zhí)行實(shí)施的方案(含具體進(jìn)度計(jì)劃)這部分重點(diǎn)寫具體實(shí)現(xiàn)的技術(shù)路線方案的具體實(shí)施方法和步驟了,具體進(jìn)度計(jì)劃只是附在后面的東西不是重點(diǎn)南京郵電大學(xué)通達(dá)學(xué)院畢業(yè)設(shè)計(jì)(論文)開題報(bào)告題目基于python的網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)學(xué)生姓名徐亞洲班級(jí)學(xué)號(hào)12003426專業(yè)軟件工程一、對(duì)指導(dǎo)教師下達(dá)的課題任務(wù)的學(xué)習(xí)與理解
2、隨著網(wǎng)絡(luò)的快速發(fā)展和廣泛應(yīng)川,大數(shù)據(jù)時(shí)代的到來,網(wǎng)絡(luò)就像一個(gè)巨人的數(shù)據(jù)寶庫,如何快速獲取其中的數(shù)據(jù)資源成為亟待完成的新需求。然而網(wǎng)絡(luò)上的信息資源大多是無組織并J1動(dòng)態(tài)變化的,光靠管理員手工去管理,很難將這些龐人,繁雜的數(shù)據(jù)進(jìn)行有效的保存和利川,這就促使了網(wǎng)絡(luò)爬蟲技術(shù)的興起。網(wǎng)絡(luò)爬蟲源£1Spider(或Crawler、robots)等的意譯。網(wǎng)絡(luò)爬蟲的定義有廣義和狹義之分,狹義的定義為:利用標(biāo)準(zhǔn)的hup協(xié)議,根據(jù)超鏈接和Web文檔檢索的方法遍歷力維網(wǎng)信息空間的軟件程序。廣義的定義為:所有能利川http協(xié)議檢索Web文檔的軟件都稱之為網(wǎng)絡(luò)爬蟲。網(wǎng)
3、絡(luò)爬蟲又被稱為做網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人,主耍用于網(wǎng)絡(luò)資源的收集工作。是一種按照一定的規(guī)則,自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳木。另外一些不常使川的名字還冇螞蟻、自動(dòng)索引、模擬程序或者蠕蟲。網(wǎng)絡(luò)爬蟲己經(jīng)發(fā)展了很多年,并且搜索引擎也是爬蟲的一種應(yīng)川,通過搜索引擎能夠更快速的獲得有用的數(shù)據(jù)和信息。但是,一些通用性的搜索引擎也存在著一定的局限性,通用搜索引擎返冋的結(jié)果町能包含了人量丿IJ戶不關(guān)心的網(wǎng)頁內(nèi)容,而且通川搜索引擎有限的服務(wù)器資源與無限的網(wǎng)絡(luò)資源之間存在的矛盾進(jìn)一步加深,述有,就是通用搜索引擎不能支持給據(jù)語義的信息提出的查詢和搜索。所以學(xué)習(xí)網(wǎng)絡(luò)爬蟲
4、有很大的意義。因此,本課題基于Python編寫基本的爬蟲系統(tǒng),用于網(wǎng)路爬蟲的入門,為以后的爬蟲學(xué)習(xí)奠定基礎(chǔ)。所以,對(duì)于本課題我設(shè)計(jì)并實(shí)現(xiàn)以個(gè)關(guān)于入門爬蟲的系統(tǒng)一基于python的豆瓣網(wǎng)爬蟲系統(tǒng)。二、閱讀文獻(xiàn)資料進(jìn)行調(diào)研的綜述網(wǎng)絡(luò)爬蟲是一個(gè)功能很強(qiáng)人的白動(dòng)捉取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)卜-載網(wǎng)頁,是搜索引擎的重要組成部分。它通過請(qǐng)求站點(diǎn)上的h(ml文檔訪問某一個(gè)站點(diǎn)。它遍歷Web空間,不斷從一個(gè)站點(diǎn)移動(dòng)到另一個(gè)站點(diǎn),自動(dòng)建立索引,并加入到網(wǎng)頁數(shù)據(jù)庫中。網(wǎng)絡(luò)爬蟲進(jìn)入某個(gè)超級(jí)文木時(shí),利用html語言的標(biāo)記結(jié)構(gòu)來搜索信息,及獲取指向其他超級(jí)文本的
5、url地址,可以完全不依賴于用戶的干預(yù)實(shí)現(xiàn)網(wǎng)絡(luò)上的白動(dòng)“爬行”和搜索。木課題需要用MySQL來存取從網(wǎng)頁上抓去到的數(shù)據(jù),文獻(xiàn)⑴講述了MySQL數(shù)據(jù)庫的入門知識(shí),該,學(xué)習(xí)該文獻(xiàn)能夠做到MySQL數(shù)據(jù)庫的基本存取操作,滿足本課題的實(shí)際操作要求。文獻(xiàn)[2]和文獻(xiàn)⑶講述了Python的入門教程和Python的編程入門,通過學(xué)習(xí)文獻(xiàn)可以了解Python的基本語法和Python的基本編程方法,對(duì)于本課題程序編寫,能夠擁有大概的思路和想法。文獻(xiàn)⑷屮提供了開發(fā)了一款支持并行的微博數(shù)據(jù)抓取工具的基本思路,該工具可以實(shí)時(shí)抓取微博中指定用戶的粉絲信息、微I専正文等內(nèi)
6、容;該工具利用關(guān)鍵字匹配技術(shù),匹配符合規(guī)定條件的微燭,并抓取相關(guān)內(nèi)容。并且支持并行抓取信息。并行爬蟲擁有較好的加速比,對(duì)以快速抓取數(shù)據(jù)。文獻(xiàn)[5]棊于信息數(shù)據(jù)分析的微博研究綜述[J];研究微博信息數(shù)據(jù)的分析,在這類研究中,大多數(shù)以微博消息傳播的三大構(gòu)件…微燭消息、用戶、用戶關(guān)系為研究對(duì)象。以微博消息傳播和微博成員組織為主要研究?jī)?nèi)容,目的在于發(fā)祥微博屮用戶、消息傳博、熱點(diǎn)話題、用戶關(guān)系網(wǎng)絡(luò)等的規(guī)律?;谖⒉┬畔?shù)據(jù)分析的研究近年來在國內(nèi)外都取得了很多成果,掌握了微博小的大量特征。該文獻(xiàn)從微博消息傳播三人構(gòu)件的角度,對(duì)當(dāng)前基于信息數(shù)據(jù)分析的微博研究
7、進(jìn)行系統(tǒng)梳理,提出微博信息傳播三大構(gòu)件的概念,歸納了此類研究的主耍研究?jī)?nèi)容及方法。對(duì)于人多用戶提出的與主題或領(lǐng)域相關(guān)的查詢需求,傳統(tǒng)的通用搜索引擎往往不能提供令人滿意的結(jié)果網(wǎng)頁。為了克服通用搜索引擎的以上不足,提出了而向主題的聚焦爬蟲的研究。文獻(xiàn)[6]綜述了聚焦爬蟲技術(shù)的研究。其中介紹并分析了聚焦爬蟲中的關(guān)鍵技術(shù):抓取目標(biāo)定義與描述,網(wǎng)頁分析算法和網(wǎng)頁分析策略,并根據(jù)網(wǎng)絡(luò)拓?fù)?、網(wǎng)貝數(shù)據(jù)內(nèi)容、用戶行為等方面將各種網(wǎng)頁分析算法做了分類和比較。聚焦爬蟲能夠克服通用爬蟲的不足Z處。文獻(xiàn)[7]首先介紹了網(wǎng)絡(luò)爬蟲工作原理,傳統(tǒng)網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)過程,并對(duì)網(wǎng)絡(luò)爬
8、蟲屮使用的關(guān)鍵技術(shù)進(jìn)行了研究,包括網(wǎng)頁搜索策略、URL去重算法、網(wǎng)頁分析技術(shù)、更新策略等。然后針對(duì)微博的特點(diǎn)和Ajax技術(shù)的實(shí)現(xiàn)方法,指出傳統(tǒng)網(wǎng)絡(luò)爬蟲