web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

ID:30773250

大小:611.00 KB

頁(yè)數(shù):9頁(yè)

時(shí)間:2019-01-03

web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第1頁(yè)
web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第2頁(yè)
web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第3頁(yè)
web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第4頁(yè)
web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第5頁(yè)
資源描述:

《web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、.基于主題的Web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)李盛韜,趙章界,余智華(中國(guó)科學(xué)院計(jì)算技術(shù)研究所軟件研究室,北京100080)摘要:基于主題的Web信息采集是信息檢索領(lǐng)域內(nèi)一個(gè)新興而有實(shí)用價(jià)值的方向,也是信息處理技術(shù)中的一個(gè)研究熱點(diǎn)。本文分析了主題Web信息采集的基本問(wèn)題,提出了難點(diǎn)以及相關(guān)的解決方案,并在此基礎(chǔ)上設(shè)計(jì)實(shí)現(xiàn)了“天達(dá)”主題Web信息采集系統(tǒng)。關(guān)鍵詞:信息采集;信息檢索;信息處理;主題Email:lishengtao@software.ict.ac.cn;zhaozj@software.ict.

2、ac.cn;yzh@ict.ac.cn中圖分類號(hào):TP391文獻(xiàn)表示碼:A基金資助:中科院計(jì)算所領(lǐng)域前沿青年基金資助(資助號(hào)20016280-8)DesignandRealizationofFocusedWebCrawlerLISheng-tao,ZHAOZhang-jie,YUZhi-hua(SoftwareDivision,InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100080,China)Abstract:Foc

3、usedwebcrawlingisanewandpracticaldirectioninthefieldofinformationretrieval.Anditalsoisaresearchhotspotintheinformationprocessingtechnologies.Thispaperarguestheprinciples,difficultiesandmeasuresofthefocusedwebcrawler,andthendetailedlyanalysesthedesignofo

4、urSkyReachfocusedwebcrawler.KeyWords:WebCrawler;InformationRetrieval;InformationProcessing;FocusedCrawler1.引言隨著Internet的迅速發(fā)展,網(wǎng)絡(luò)正深刻地改變著我們的生活。截止到2000年7月,Internet上的網(wǎng)頁(yè)數(shù)量就已經(jīng)超過(guò)21億,上網(wǎng)用戶超過(guò)3億,而且網(wǎng)頁(yè)還在以每天700萬(wàn)的速度增加[8]。這給人們的生活提供了豐富的資源。然而,Web信息的急速膨脹,在給人們提供豐富信息的同時(shí),又使人們

5、在對(duì)它們的有效使用方面面臨一個(gè)巨大的挑戰(zhàn)。因此,基于Web的信息采集、發(fā)布和相關(guān)的信息處理日益成為人們關(guān)注的焦點(diǎn)。傳統(tǒng)的Web信息采集的目標(biāo)就是盡可能多地采集信息頁(yè)面,甚至是整個(gè)Web上的資源,而在這一過(guò)程中它并不太在意頁(yè)面采集的順序和被采集頁(yè)面的相關(guān)主題。這樣做的一個(gè)極大好處是能夠集中精力在采集的速度和數(shù)量上,并且實(shí)現(xiàn)起來(lái)也相對(duì)簡(jiǎn)單,例如Google采集系統(tǒng)在并行4個(gè)采集器時(shí)的采集速度可以達(dá)到每秒100頁(yè)。但是,這種傳統(tǒng)的采集方法也存在著很多缺陷。隨著WWW信息的爆炸性增長(zhǎng),信息采集的速度越來(lái)越不能

6、滿足實(shí)際應(yīng)用的需要。最近的試驗(yàn)表明,即使大型的信息采集系統(tǒng),它對(duì)Web的覆蓋率也只有30-40%。解決這一問(wèn)題的辦法有升級(jí)信息采集器的硬件設(shè)備、提高并行能力,但是它們的能力十分有限,帶來(lái)的改善效果仍遠(yuǎn)不能滿足人們的需要。主題采集則可以通過(guò)對(duì)整個(gè)Web按主題分塊采集,并將不同塊的采集結(jié)果整合到一起,來(lái)提高整個(gè)Web的采集覆蓋率。對(duì)于傳統(tǒng)的信息采集來(lái)說(shuō),待刷新頁(yè)面數(shù)量的巨大使得很多采集系統(tǒng)刷新一遍需要數(shù)周到一個(gè)月的時(shí)間[1][2],這使得頁(yè)面的失效率非常地巨大。Selberg和Etzioni在1995年的

7、調(diào)查發(fā)現(xiàn),通過(guò)Internet中最常用的一些搜索引擎查詢到的結(jié)果URL中,14.9%的目標(biāo)頁(yè)面已經(jīng)失效了[5]。一個(gè)好的緩解辦法就是采用主題采集,通過(guò)減小采集頁(yè)面的數(shù)量,從而減小刷新一遍的時(shí)間,進(jìn)而減小已采集頁(yè)面的失效率。傳統(tǒng)的信息采集需要采集的頁(yè)面數(shù)量十分巨大,這需要消耗非常多的系統(tǒng)資源和網(wǎng)絡(luò)資源,而對(duì)這些資源的消耗并沒(méi)有換來(lái)采集到頁(yè)面的較高利用率,事實(shí)上,它們中有相當(dāng)大的一部分利用率很低。基于主題的采集有效地提高了采集到頁(yè)面的利用效率。為此,我們開(kāi)展了主題Web信息采集技術(shù)的研究,并設(shè)計(jì)實(shí)現(xiàn)了“天

8、達(dá)”...主題Web信息采集系統(tǒng)。全文的組織是這樣的:第二章介紹主題Web信息采集的基本問(wèn)題;第三章給出了“天達(dá)”主題Web信息采集系統(tǒng)的結(jié)構(gòu)模型以及相關(guān)細(xì)節(jié);在第四章里,我們給出了該系統(tǒng)的實(shí)現(xiàn)情況;最后,在第五章里展望了主題Web信息采集發(fā)展的動(dòng)向。2.基于主題的Web信息采集的基本問(wèn)題2.1基于主題的Web信息采集的定義在Web信息采集的大家庭中,有一類非常重要,它就是基于主題的Web信息采集(FocusedCrawling),也稱為Topic-Sp

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。