基于python的web信息獲取方法研究

ID：28135220

大?。?7.65 KB

頁(yè)數(shù)：4頁(yè)

時(shí)間：2018-12-08

資源描述：

《基于python的web信息獲取方法研究》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。

1、為了確?！敖虒W(xué)點(diǎn)數(shù)字教育資源全覆蓋”項(xiàng)目設(shè)備正常使用，我校做到安裝、教師培訓(xùn)同步進(jìn)行。設(shè)備安裝到位后，中心校組織各學(xué)點(diǎn)管理人員統(tǒng)一到縣教師進(jìn)修學(xué)校進(jìn)行培訓(xùn)，熟悉系統(tǒng)的使用和維護(hù)?；赑ython的Web信息獲取方法研究　　摘要：隨著大數(shù)據(jù)和云計(jì)算等新一代互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展，Web信息量逐日海量遞增。從海量數(shù)據(jù)中提取有效信息，挖掘有潛在價(jià)值的關(guān)系成為當(dāng)前的研究熱點(diǎn)，這對(duì)揭示已知規(guī)律、預(yù)測(cè)未知結(jié)果有極大的輔助作用。對(duì)當(dāng)前Web信息獲取方法、原理和關(guān)鍵技術(shù)進(jìn)行研究分析，重點(diǎn)闡述了數(shù)據(jù)采集相關(guān)技術(shù)中網(wǎng)絡(luò)爬蟲算法的分類與應(yīng)用。提出一

2、種以Python和相關(guān)庫(kù)為主要工具，結(jié)合模塊化方法，構(gòu)建Web文本信息獲取系統(tǒng)框架與流程的策略。案例中通過(guò)定義采集函數(shù)，實(shí)現(xiàn)對(duì)給定的維基百科詞條，快速搜索與該詞條相關(guān)信息，對(duì)詞條內(nèi)鏈接和外鏈接進(jìn)行有效爬取。結(jié)果表明，Python在數(shù)據(jù)采集方面具有較高的有效性和可擴(kuò)展性?！　￡P(guān)鍵詞：Python；信息獲取；網(wǎng)絡(luò)爬蟲；正則表達(dá)式　　DOIDOI：/　　中圖分類號(hào)：TP301　　文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)文章編號(hào)：　　Abstract：Asthedevelopmentofbigdataandcloudcomputing，anincre

3、asingnumberofinformationhasbeenboostedsignificantly.Extractingtheinformationandextractusefulinformationfromhugeamountsofdataeffectivelyhasbeenbecomingthecurrenthotspot.Moreover，ithascontributedto為了充分發(fā)揮“教學(xué)點(diǎn)數(shù)字教育資源全覆蓋”項(xiàng)目設(shè)備的作用，我們不僅把資源運(yùn)用于課堂教學(xué)，還利用系統(tǒng)的特色欄目開展課外活動(dòng)，對(duì)學(xué)生進(jìn)行安全教育、

4、健康教育、反邪教教育等豐富學(xué)生的課余文化生活。為了確?！敖虒W(xué)點(diǎn)數(shù)字教育資源全覆蓋”項(xiàng)目設(shè)備正常使用，我校做到安裝、教師培訓(xùn)同步進(jìn)行。設(shè)備安裝到位后，中心校組織各學(xué)點(diǎn)管理人員統(tǒng)一到縣教師進(jìn)修學(xué)校進(jìn)行培訓(xùn)，熟悉系統(tǒng)的使用和維護(hù)。revealingtheknownregulationsandpredictingunknownresults.Inthispaper，thecurrentWebinformationretrievalmethod，theprincipleandkeytechnologyhasbeenanalyzedan

5、dthealgorithm，classificationandapplicationofWebcrawlerindataacquisitiontechnologyareemphasized.ThispaperpresentsamethodofconstructingWebtextinformationacquisitionsystembasedonPythonandrelatedlibraries.Inthecase，bydefiningtheregularexpressionsandcrawlingfunction，itr

6、ealizedsearchingfortherelevantinformationoftheentry，andeffectivelyretrievalingtheinternallinksandtheexternallinks.TheresultsshowthatPythonhassignificantefficiencyandexpansibilityindataretrieval.　　KeyWords：Python；informationaccess；Webcrawler；regularexpression　　0引言為了

7、充分發(fā)揮“教學(xué)點(diǎn)數(shù)字教育資源全覆蓋”項(xiàng)目設(shè)備的作用，我們不僅把資源運(yùn)用于課堂教學(xué)，還利用系統(tǒng)的特色欄目開展課外活動(dòng)，對(duì)學(xué)生進(jìn)行安全教育、健康教育、反邪教教育等豐富學(xué)生的課余文化生活。為了確?！敖虒W(xué)點(diǎn)數(shù)字教育資源全覆蓋”項(xiàng)目設(shè)備正常使用，我校做到安裝、教師培訓(xùn)同步進(jìn)行。設(shè)備安裝到位后，中心校組織各學(xué)點(diǎn)管理人員統(tǒng)一到縣教師進(jìn)修學(xué)校進(jìn)行培訓(xùn)，熟悉系統(tǒng)的使用和維護(hù)?！　』?網(wǎng)提供了大量數(shù)據(jù)集，但是由于網(wǎng)站本身的多樣化和異構(gòu)性以及網(wǎng)頁(yè)文檔結(jié)構(gòu)的復(fù)雜性，很多數(shù)據(jù)都被嵌入到網(wǎng)頁(yè)結(jié)構(gòu)與樣式中。Web信息獲取，也稱為基于Web的知識(shí)發(fā)現(xiàn)。We

8、b數(shù)據(jù)獲取技術(shù)分為：基于本體的數(shù)據(jù)獲取、基于自然語(yǔ)言的數(shù)據(jù)獲取、基于網(wǎng)站查詢的數(shù)據(jù)獲取、基于規(guī)則和地理位置的數(shù)據(jù)獲取。利用行之有效的方法，將可用的信息從海量數(shù)據(jù)中抽取出來(lái)，挖掘潛在價(jià)值，將在金融、電信業(yè)、輿情監(jiān)控、數(shù)據(jù)分析以及其他科學(xué)領(lǐng)域發(fā)揮重要作用。由此可見(jiàn)，獲取Web信息的技術(shù)顯得尤為

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 / 4



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

基于python的web信息獲取方法研究

基于python的web信息獲取方法研究

相關(guān)文章

相關(guān)標(biāo)簽