資源描述:
《基于python的web信息獲取方法研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫(kù)。
1、為了確?!敖虒W(xué)點(diǎn)數(shù)字教育資源全覆蓋”項(xiàng)目設(shè)備正常使用,我校做到安裝、教師培訓(xùn)同步進(jìn)行。設(shè)備安裝到位后,中心校組織各學(xué)點(diǎn)管理人員統(tǒng)一到縣教師進(jìn)修學(xué)校進(jìn)行培訓(xùn),熟悉系統(tǒng)的使用和維護(hù)?;赑ython的Web信息獲取方法研究 摘要:隨著大數(shù)據(jù)和云計(jì)算等新一代互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,Web信息量逐日海量遞增。從海量數(shù)據(jù)中提取有效信息,挖掘有潛在價(jià)值的關(guān)系成為當(dāng)前的研究熱點(diǎn),這對(duì)揭示已知規(guī)律、預(yù)測(cè)未知結(jié)果有極大的輔助作用。對(duì)當(dāng)前Web信息獲取方法、原理和關(guān)鍵技術(shù)進(jìn)行研究分析,重點(diǎn)闡述了數(shù)據(jù)采集相關(guān)技術(shù)中網(wǎng)絡(luò)爬蟲算法的分類與應(yīng)用。提出一
2、種以Python和相關(guān)庫(kù)為主要工具,結(jié)合模塊化方法,構(gòu)建Web文本信息獲取系統(tǒng)框架與流程的策略。案例中通過(guò)定義采集函數(shù),實(shí)現(xiàn)對(duì)給定的維基百科詞條,快速搜索與該詞條相關(guān)信息,對(duì)詞條內(nèi)鏈接和外鏈接進(jìn)行有效爬取。結(jié)果表明,Python在數(shù)據(jù)采集方面具有較高的有效性和可擴(kuò)展性?! £P(guān)鍵詞:Python;信息獲取;網(wǎng)絡(luò)爬蟲;正則表達(dá)式 DOIDOI:/ 中圖分類號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào): Abstract:Asthedevelopmentofbigdataandcloudcomputing,anincre
3、asingnumberofinformationhasbeenboostedsignificantly.Extractingtheinformationandextractusefulinformationfromhugeamountsofdataeffectivelyhasbeenbecomingthecurrenthotspot.Moreover,ithascontributedto為了充分發(fā)揮“教學(xué)點(diǎn)數(shù)字教育資源全覆蓋”項(xiàng)目設(shè)備的作用,我們不僅把資源運(yùn)用于課堂教學(xué),還利用系統(tǒng)的特色欄目開展課外活動(dòng),對(duì)學(xué)生進(jìn)行安全教育、
4、健康教育、反邪教教育等豐富學(xué)生的課余文化生活。為了確?!敖虒W(xué)點(diǎn)數(shù)字教育資源全覆蓋”項(xiàng)目設(shè)備正常使用,我校做到安裝、教師培訓(xùn)同步進(jìn)行。設(shè)備安裝到位后,中心校組織各學(xué)點(diǎn)管理人員統(tǒng)一到縣教師進(jìn)修學(xué)校進(jìn)行培訓(xùn),熟悉系統(tǒng)的使用和維護(hù)。revealingtheknownregulationsandpredictingunknownresults.Inthispaper,thecurrentWebinformationretrievalmethod,theprincipleandkeytechnologyhasbeenanalyzedan
5、dthealgorithm,classificationandapplicationofWebcrawlerindataacquisitiontechnologyareemphasized.ThispaperpresentsamethodofconstructingWebtextinformationacquisitionsystembasedonPythonandrelatedlibraries.Inthecase,bydefiningtheregularexpressionsandcrawlingfunction,itr
6、ealizedsearchingfortherelevantinformationoftheentry,andeffectivelyretrievalingtheinternallinksandtheexternallinks.TheresultsshowthatPythonhassignificantefficiencyandexpansibilityindataretrieval. KeyWords:Python;informationaccess;Webcrawler;regularexpression 0引言為了
7、充分發(fā)揮“教學(xué)點(diǎn)數(shù)字教育資源全覆蓋”項(xiàng)目設(shè)備的作用,我們不僅把資源運(yùn)用于課堂教學(xué),還利用系統(tǒng)的特色欄目開展課外活動(dòng),對(duì)學(xué)生進(jìn)行安全教育、健康教育、反邪教教育等豐富學(xué)生的課余文化生活。為了確?!敖虒W(xué)點(diǎn)數(shù)字教育資源全覆蓋”項(xiàng)目設(shè)備正常使用,我校做到安裝、教師培訓(xùn)同步進(jìn)行。設(shè)備安裝到位后,中心校組織各學(xué)點(diǎn)管理人員統(tǒng)一到縣教師進(jìn)修學(xué)校進(jìn)行培訓(xùn),熟悉系統(tǒng)的使用和維護(hù)?! 』?網(wǎng)提供了大量數(shù)據(jù)集,但是由于網(wǎng)站本身的多樣化和異構(gòu)性以及網(wǎng)頁(yè)文檔結(jié)構(gòu)的復(fù)雜性,很多數(shù)據(jù)都被嵌入到網(wǎng)頁(yè)結(jié)構(gòu)與樣式中。Web信息獲取,也稱為基于Web的知識(shí)發(fā)現(xiàn)。We
8、b數(shù)據(jù)獲取技術(shù)分為:基于本體的數(shù)據(jù)獲取、基于自然語(yǔ)言的數(shù)據(jù)獲取、基于網(wǎng)站查詢的數(shù)據(jù)獲取、基于規(guī)則和地理位置的數(shù)據(jù)獲取。利用行之有效的方法,將可用的信息從海量數(shù)據(jù)中抽取出來(lái),挖掘潛在價(jià)值,將在金融、電信業(yè)、輿情監(jiān)控、數(shù)據(jù)分析以及其他科學(xué)領(lǐng)域發(fā)揮重要作用。由此可見(jiàn),獲取Web信息的技術(shù)顯得尤為