專題式web信息獲取技術(shù)研究

專題式web信息獲取技術(shù)研究

ID:35140001

大?。?.15 MB

頁數(shù):55頁

時間:2019-03-20

專題式web信息獲取技術(shù)研究_第1頁
專題式web信息獲取技術(shù)研究_第2頁
專題式web信息獲取技術(shù)研究_第3頁
專題式web信息獲取技術(shù)研究_第4頁
專題式web信息獲取技術(shù)研究_第5頁
資源描述:

《專題式web信息獲取技術(shù)研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、北京化工大學(xué)碩士學(xué)位論文專題式Web信息獲取技術(shù)研究姓名:歐歌申請學(xué)位級別:碩士專業(yè):計算機應(yīng)用技術(shù)指導(dǎo)教師:趙恒永20050605北京化工大學(xué)碩士研究生學(xué)位論文專題式Web信息獲取技術(shù)研究摘要Web信息獲取存在已經(jīng)有十幾年的歷史,近年來網(wǎng)絡(luò)信息量飛速增長,使得傳統(tǒng)的綜合性信息獲取的發(fā)展變得越來越困難,他無法及時的收集所有信息,而且由于信息數(shù)量太多,在準確率上無法滿足人們的需要。固此,小型的專題信息采集成為近年的研究熱點,具備了極高的研究價值。本文論述了Web信息獲取的用途、歷史、現(xiàn)狀及發(fā)展,介紹了信息獲取系統(tǒng)的

2、主要流程,對其中現(xiàn)在比較流行的主要算法進行了介紹和比較,分析了中國目前在化工專業(yè)方向的網(wǎng)絡(luò)信息分布情況。使用Java以及SQLServer2000數(shù)據(jù)庫構(gòu)建了一個專題式的Web信息獲取系統(tǒng),其中利用元搜索引擎的原理采用人工加機器的方式從網(wǎng)絡(luò)上收集種子,通過提供全面、準確的網(wǎng)站網(wǎng)址,簡化數(shù)據(jù)過濾的工作,并且在此基礎(chǔ)上實現(xiàn)了高效、靈活的信息下載功能。對在HTML的解析,文件過濾中遇到的問題提出了解決的方法,對整個系統(tǒng)的性能及未來的發(fā)展提出了總結(jié)。從最后的結(jié)果來看,這套系統(tǒng)的方案是行之有效的,獲取到的頁面質(zhì)量很好。相信

3、本課題的研究成果也能夠適用于其他方向的專題信息獲取。關(guān)鍵字:信息獲取,專題,搜索引擎,種子北京化工大學(xué)硬士研究生學(xué)位論文RESEARCH0FTOPIC—SPECIFICWEBRESOURCEDISCovERYABSTRACTWebcrawlerhaveexistformanyyears.TherapidgrowthoftheWorld—WideWebposesunprecedentedscalingchallengesforgeneral—purposecrawlersrecently.Itcannotgathe

4、ralldatatimelyanditiShardtofindouttheusefulinformation.Sothefocusedwebcrawlerbecomesthefocusresearch.Thegoalofitistoselectivelyseekoutpagesthatarerelevanttoasetoftopics.Itcanimprovethecrawler’Sperformance,leadstosavingsinhardwareandnetworkresourcesInthispaper

5、weintroducetheuses,history,actualityandfutureofthefocusedwebcrawler,analysethepopularalgorithmanddistributionofthepagesthatarerelevanttoatopicintheweb.BuildafocusedcrawlerwithJavaandSQLServer2000.Collectseedsfromwebbasedonmetasearchenginetheory.Simplifytheinf

6、ormationfilteringthroughprovidingcomprehensiveandexactURLofwebsiteandrealizethehigheffectiveinformationcrawling.WealsogivethesolutiontoproblemsmetinanalyzingHTMLsyntaxandfilefiltering.Finally,wemakeasummaryofthecapabilityandthefutureofthesystem.Theexperimentr

7、esultshowthattheworkiseffectiveandourII北京化工大學(xué)碩士研究生學(xué)位論文systemhasaverystrongapplicationvalue.Itiscertainthattheprojectcallwellbeusedinfocusedcrawleronothertopicelse.KEYWORDS:WebResourceGathering,Topic,SearchEngine,SeedIll北京化工大學(xué)碩士研究生學(xué)位論文符號說明www:WorldWideweb。萬維網(wǎng)C

8、NNIC:ChinaIntemetNetworkInformationCenter,中國互聯(lián)網(wǎng)絡(luò)信息中心URL:UnifoITflResourceLocator,統(tǒng)一資源定位器URI:UniformResourceIdentifier,統(tǒng)一資源標識符HTTP:HypertextTransferProtocol,超文本傳輸協(xié)議XML:ExtensibleMarkupLang

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。