資源描述:
《專題式web信息獲取技術(shù)研究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、北京化工大學(xué)碩士學(xué)位論文專題式Web信息獲取技術(shù)研究姓名:歐歌申請學(xué)位級別:碩士專業(yè):計算機應(yīng)用技術(shù)指導(dǎo)教師:趙恒永20050605北京化工大學(xué)碩士研究生學(xué)位論文專題式Web信息獲取技術(shù)研究摘要Web信息獲取存在已經(jīng)有十幾年的歷史,近年來網(wǎng)絡(luò)信息量飛速增長,使得傳統(tǒng)的綜合性信息獲取的發(fā)展變得越來越困難,他無法及時的收集所有信息,而且由于信息數(shù)量太多,在準確率上無法滿足人們的需要。固此,小型的專題信息采集成為近年的研究熱點,具備了極高的研究價值。本文論述了Web信息獲取的用途、歷史、現(xiàn)狀及發(fā)展,介紹了信息獲取系統(tǒng)的
2、主要流程,對其中現(xiàn)在比較流行的主要算法進行了介紹和比較,分析了中國目前在化工專業(yè)方向的網(wǎng)絡(luò)信息分布情況。使用Java以及SQLServer2000數(shù)據(jù)庫構(gòu)建了一個專題式的Web信息獲取系統(tǒng),其中利用元搜索引擎的原理采用人工加機器的方式從網(wǎng)絡(luò)上收集種子,通過提供全面、準確的網(wǎng)站網(wǎng)址,簡化數(shù)據(jù)過濾的工作,并且在此基礎(chǔ)上實現(xiàn)了高效、靈活的信息下載功能。對在HTML的解析,文件過濾中遇到的問題提出了解決的方法,對整個系統(tǒng)的性能及未來的發(fā)展提出了總結(jié)。從最后的結(jié)果來看,這套系統(tǒng)的方案是行之有效的,獲取到的頁面質(zhì)量很好。相信
3、本課題的研究成果也能夠適用于其他方向的專題信息獲取。關(guān)鍵字:信息獲取,專題,搜索引擎,種子北京化工大學(xué)硬士研究生學(xué)位論文RESEARCH0FTOPIC—SPECIFICWEBRESOURCEDISCovERYABSTRACTWebcrawlerhaveexistformanyyears.TherapidgrowthoftheWorld—WideWebposesunprecedentedscalingchallengesforgeneral—purposecrawlersrecently.Itcannotgathe
4、ralldatatimelyanditiShardtofindouttheusefulinformation.Sothefocusedwebcrawlerbecomesthefocusresearch.Thegoalofitistoselectivelyseekoutpagesthatarerelevanttoasetoftopics.Itcanimprovethecrawler’Sperformance,leadstosavingsinhardwareandnetworkresourcesInthispaper
5、weintroducetheuses,history,actualityandfutureofthefocusedwebcrawler,analysethepopularalgorithmanddistributionofthepagesthatarerelevanttoatopicintheweb.BuildafocusedcrawlerwithJavaandSQLServer2000.Collectseedsfromwebbasedonmetasearchenginetheory.Simplifytheinf
6、ormationfilteringthroughprovidingcomprehensiveandexactURLofwebsiteandrealizethehigheffectiveinformationcrawling.WealsogivethesolutiontoproblemsmetinanalyzingHTMLsyntaxandfilefiltering.Finally,wemakeasummaryofthecapabilityandthefutureofthesystem.Theexperimentr
7、esultshowthattheworkiseffectiveandourII北京化工大學(xué)碩士研究生學(xué)位論文systemhasaverystrongapplicationvalue.Itiscertainthattheprojectcallwellbeusedinfocusedcrawleronothertopicelse.KEYWORDS:WebResourceGathering,Topic,SearchEngine,SeedIll北京化工大學(xué)碩士研究生學(xué)位論文符號說明www:WorldWideweb。萬維網(wǎng)C
8、NNIC:ChinaIntemetNetworkInformationCenter,中國互聯(lián)網(wǎng)絡(luò)信息中心URL:UnifoITflResourceLocator,統(tǒng)一資源定位器URI:UniformResourceIdentifier,統(tǒng)一資源標識符HTTP:HypertextTransferProtocol,超文本傳輸協(xié)議XML:ExtensibleMarkupLang