web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

ID：30773250

大小：611.00 KB

頁(yè)數(shù)：9頁(yè)

時(shí)間：2019-01-03

web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第1頁(yè)

web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第2頁(yè)

web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第3頁(yè)

web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第4頁(yè)

web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)_第5頁(yè)

資源描述：

《web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。

1、.基于主題的Web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)李盛韜，趙章界，余智華（中國(guó)科學(xué)院計(jì)算技術(shù)研究所軟件研究室，北京100080）摘要：基于主題的Web信息采集是信息檢索領(lǐng)域內(nèi)一個(gè)新興而有實(shí)用價(jià)值的方向，也是信息處理技術(shù)中的一個(gè)研究熱點(diǎn)。本文分析了主題Web信息采集的基本問(wèn)題，提出了難點(diǎn)以及相關(guān)的解決方案，并在此基礎(chǔ)上設(shè)計(jì)實(shí)現(xiàn)了“天達(dá)”主題Web信息采集系統(tǒng)。關(guān)鍵詞：信息采集；信息檢索；信息處理；主題Email：lishengtao@software.ict.ac.cn;zhaozj@software.ict.

2、ac.cn;yzh@ict.ac.cn中圖分類號(hào)：TP391文獻(xiàn)表示碼：A基金資助：中科院計(jì)算所領(lǐng)域前沿青年基金資助(資助號(hào)20016280-8)DesignandRealizationofFocusedWebCrawlerLISheng-tao，ZHAOZhang-jie，YUZhi-hua(SoftwareDivision,InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100080,China)Abstract:Foc

3、usedwebcrawlingisanewandpracticaldirectioninthefieldofinformationretrieval.Anditalsoisaresearchhotspotintheinformationprocessingtechnologies.Thispaperarguestheprinciples,difficultiesandmeasuresofthefocusedwebcrawler,andthendetailedlyanalysesthedesignofo

4、urSkyReachfocusedwebcrawler.KeyWords:WebCrawler；InformationRetrieval；InformationProcessing;FocusedCrawler1.引言隨著Internet的迅速發(fā)展，網(wǎng)絡(luò)正深刻地改變著我們的生活。截止到2000年7月，Internet上的網(wǎng)頁(yè)數(shù)量就已經(jīng)超過(guò)21億，上網(wǎng)用戶超過(guò)3億，而且網(wǎng)頁(yè)還在以每天700萬(wàn)的速度增加[8]。這給人們的生活提供了豐富的資源。然而，Web信息的急速膨脹，在給人們提供豐富信息的同時(shí)，又使人們

5、在對(duì)它們的有效使用方面面臨一個(gè)巨大的挑戰(zhàn)。因此，基于Web的信息采集、發(fā)布和相關(guān)的信息處理日益成為人們關(guān)注的焦點(diǎn)。傳統(tǒng)的Web信息采集的目標(biāo)就是盡可能多地采集信息頁(yè)面，甚至是整個(gè)Web上的資源，而在這一過(guò)程中它并不太在意頁(yè)面采集的順序和被采集頁(yè)面的相關(guān)主題。這樣做的一個(gè)極大好處是能夠集中精力在采集的速度和數(shù)量上，并且實(shí)現(xiàn)起來(lái)也相對(duì)簡(jiǎn)單，例如Google采集系統(tǒng)在并行4個(gè)采集器時(shí)的采集速度可以達(dá)到每秒100頁(yè)。但是，這種傳統(tǒng)的采集方法也存在著很多缺陷。隨著WWW信息的爆炸性增長(zhǎng)，信息采集的速度越來(lái)越不能

6、滿足實(shí)際應(yīng)用的需要。最近的試驗(yàn)表明，即使大型的信息采集系統(tǒng)，它對(duì)Web的覆蓋率也只有30-40%。解決這一問(wèn)題的辦法有升級(jí)信息采集器的硬件設(shè)備、提高并行能力，但是它們的能力十分有限，帶來(lái)的改善效果仍遠(yuǎn)不能滿足人們的需要。主題采集則可以通過(guò)對(duì)整個(gè)Web按主題分塊采集，并將不同塊的采集結(jié)果整合到一起，來(lái)提高整個(gè)Web的采集覆蓋率。對(duì)于傳統(tǒng)的信息采集來(lái)說(shuō)，待刷新頁(yè)面數(shù)量的巨大使得很多采集系統(tǒng)刷新一遍需要數(shù)周到一個(gè)月的時(shí)間[1][2]，這使得頁(yè)面的失效率非常地巨大。Selberg和Etzioni在1995年的

7、調(diào)查發(fā)現(xiàn)，通過(guò)Internet中最常用的一些搜索引擎查詢到的結(jié)果URL中，14.9%的目標(biāo)頁(yè)面已經(jīng)失效了[5]。一個(gè)好的緩解辦法就是采用主題采集，通過(guò)減小采集頁(yè)面的數(shù)量，從而減小刷新一遍的時(shí)間，進(jìn)而減小已采集頁(yè)面的失效率。傳統(tǒng)的信息采集需要采集的頁(yè)面數(shù)量十分巨大，這需要消耗非常多的系統(tǒng)資源和網(wǎng)絡(luò)資源，而對(duì)這些資源的消耗并沒(méi)有換來(lái)采集到頁(yè)面的較高利用率，事實(shí)上，它們中有相當(dāng)大的一部分利用率很低。基于主題的采集有效地提高了采集到頁(yè)面的利用效率。為此，我們開(kāi)展了主題Web信息采集技術(shù)的研究，并設(shè)計(jì)實(shí)現(xiàn)了“天

8、達(dá)”...主題Web信息采集系統(tǒng)。全文的組織是這樣的：第二章介紹主題Web信息采集的基本問(wèn)題；第三章給出了“天達(dá)”主題Web信息采集系統(tǒng)的結(jié)構(gòu)模型以及相關(guān)細(xì)節(jié)；在第四章里，我們給出了該系統(tǒng)的實(shí)現(xiàn)情況；最后，在第五章里展望了主題Web信息采集發(fā)展的動(dòng)向。2.基于主題的Web信息采集的基本問(wèn)題2.1基于主題的Web信息采集的定義在Web信息采集的大家庭中，有一類非常重要，它就是基于主題的Web信息采集(FocusedCrawling)，也稱為Topic-Sp

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 4 5 / 9



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè)，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無(wú)此問(wèn)題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

web信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

相關(guān)文章

相關(guān)標(biāo)簽