資源描述:
《web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、.基于主題的Web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)李盛韜,趙章界,余智華(中國(guó)科學(xué)院計(jì)算技術(shù)研究所軟件研究室,北京100080)摘要:基于主題的Web信息采集是信息檢索領(lǐng)域內(nèi)一個(gè)新興而有實(shí)用價(jià)值的方向,也是信息處理技術(shù)中的一個(gè)研究熱點(diǎn)。本文分析了主題Web信息采集的基本問(wèn)題,提出了難點(diǎn)以及相關(guān)的解決方案,并在此基礎(chǔ)上設(shè)計(jì)實(shí)現(xiàn)了“天達(dá)”主題Web信息采集系統(tǒng)。關(guān)鍵詞:信息采集;信息檢索;信息處理;主題Email:lishengtao@software.ict.ac.cn;zhaozj@software.ict.
2、ac.cn;yzh@ict.ac.cn中圖分類號(hào):TP391文獻(xiàn)表示碼:A基金資助:中科院計(jì)算所領(lǐng)域前沿青年基金資助(資助號(hào)20016280-8)DesignandRealizationofFocusedWebCrawlerLISheng-tao,ZHAOZhang-jie,YUZhi-hua(SoftwareDivision,InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100080,China)Abstract:Foc
3、usedwebcrawlingisanewandpracticaldirectioninthefieldofinformationretrieval.Anditalsoisaresearchhotspotintheinformationprocessingtechnologies.Thispaperarguestheprinciples,difficultiesandmeasuresofthefocusedwebcrawler,andthendetailedlyanalysesthedesignofo
4、urSkyReachfocusedwebcrawler.KeyWords:WebCrawler;InformationRetrieval;InformationProcessing;FocusedCrawler1.引言隨著Internet的迅速發(fā)展,網(wǎng)絡(luò)正深刻地改變著我們的生活。截止到2000年7月,Internet上的網(wǎng)頁(yè)數(shù)量就已經(jīng)超過(guò)21億,上網(wǎng)用戶超過(guò)3億,而且網(wǎng)頁(yè)還在以每天700萬(wàn)的速度增加[8]。這給人們的生活提供了豐富的資源。然而,Web信息的急速膨脹,在給人們提供豐富信息的同時(shí),又使人們
5、在對(duì)它們的有效使用方面面臨一個(gè)巨大的挑戰(zhàn)。因此,基于Web的信息采集、發(fā)布和相關(guān)的信息處理日益成為人們關(guān)注的焦點(diǎn)。傳統(tǒng)的Web信息采集的目標(biāo)就是盡可能多地采集信息頁(yè)面,甚至是整個(gè)Web上的資源,而在這一過(guò)程中它并不太在意頁(yè)面采集的順序和被采集頁(yè)面的相關(guān)主題。這樣做的一個(gè)極大好處是能夠集中精力在采集的速度和數(shù)量上,并且實(shí)現(xiàn)起來(lái)也相對(duì)簡(jiǎn)單,例如Google采集系統(tǒng)在并行4個(gè)采集器時(shí)的采集速度可以達(dá)到每秒100頁(yè)。但是,這種傳統(tǒng)的采集方法也存在著很多缺陷。隨著WWW信息的爆炸性增長(zhǎng),信息采集的速度越來(lái)越不能
6、滿足實(shí)際應(yīng)用的需要。最近的試驗(yàn)表明,即使大型的信息采集系統(tǒng),它對(duì)Web的覆蓋率也只有30-40%。解決這一問(wèn)題的辦法有升級(jí)信息采集器的硬件設(shè)備、提高并行能力,但是它們的能力十分有限,帶來(lái)的改善效果仍遠(yuǎn)不能滿足人們的需要。主題采集則可以通過(guò)對(duì)整個(gè)Web按主題分塊采集,并將不同塊的采集結(jié)果整合到一起,來(lái)提高整個(gè)Web的采集覆蓋率。對(duì)于傳統(tǒng)的信息采集來(lái)說(shuō),待刷新頁(yè)面數(shù)量的巨大使得很多采集系統(tǒng)刷新一遍需要數(shù)周到一個(gè)月的時(shí)間[1][2],這使得頁(yè)面的失效率非常地巨大。Selberg和Etzioni在1995年的
7、調(diào)查發(fā)現(xiàn),通過(guò)Internet中最常用的一些搜索引擎查詢到的結(jié)果URL中,14.9%的目標(biāo)頁(yè)面已經(jīng)失效了[5]。一個(gè)好的緩解辦法就是采用主題采集,通過(guò)減小采集頁(yè)面的數(shù)量,從而減小刷新一遍的時(shí)間,進(jìn)而減小已采集頁(yè)面的失效率。傳統(tǒng)的信息采集需要采集的頁(yè)面數(shù)量十分巨大,這需要消耗非常多的系統(tǒng)資源和網(wǎng)絡(luò)資源,而對(duì)這些資源的消耗并沒(méi)有換來(lái)采集到頁(yè)面的較高利用率,事實(shí)上,它們中有相當(dāng)大的一部分利用率很低。基于主題的采集有效地提高了采集到頁(yè)面的利用效率。為此,我們開(kāi)展了主題Web信息采集技術(shù)的研究,并設(shè)計(jì)實(shí)現(xiàn)了“天
8、達(dá)”...主題Web信息采集系統(tǒng)。全文的組織是這樣的:第二章介紹主題Web信息采集的基本問(wèn)題;第三章給出了“天達(dá)”主題Web信息采集系統(tǒng)的結(jié)構(gòu)模型以及相關(guān)細(xì)節(jié);在第四章里,我們給出了該系統(tǒng)的實(shí)現(xiàn)情況;最后,在第五章里展望了主題Web信息采集發(fā)展的動(dòng)向。2.基于主題的Web信息采集的基本問(wèn)題2.1基于主題的Web信息采集的定義在Web信息采集的大家庭中,有一類非常重要,它就是基于主題的Web信息采集(FocusedCrawling),也稱為Topic-Sp