資源描述:
《基于本體的網(wǎng)絡(luò)爬蟲設(shè)計(jì)及應(yīng)用》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、%毛擊如成杳UNVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINAI專業(yè)學(xué)位碩±學(xué)位論文MASTERTHESISFORPROFESSIONALDEGREE''■I論文題目基于本體的網(wǎng)鑛爬蟲設(shè)計(jì)及應(yīng)用專業(yè)學(xué)位類別工程碩±學(xué)號(hào)201192040402作者姓名譚嘯指導(dǎo)教師董宇亮副教授獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加W標(biāo)注和致謝的地方外,?
2、論文中不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得電一子科技大學(xué)或其它教育機(jī)構(gòu)的學(xué)位或證書而使用過的材料。與我同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均己在論文中作了明確的說明并表示謝意。。。;:作者簽名_日期>(年了月令日自論文使用授權(quán)本學(xué)位論文作者完全了解電子科技大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,,有權(quán)保留并向國(guó)家有關(guān)部口或機(jī)構(gòu)送交論文的復(fù)印件和磁盤化許論文被查閱和借閱。本人授權(quán)電子科技大學(xué)可W將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。,
3、(保密的學(xué)位論文在解密后應(yīng)遵守此規(guī)定)作者簽名:_。若導(dǎo)肺慾么:^平曰期:又/^^年備月7曰分類號(hào)密級(jí)注1UDC學(xué)位論文基于本體的網(wǎng)絡(luò)爬蟲設(shè)計(jì)及應(yīng)用譚嘯指導(dǎo)教師董宇亮副教授電子科技大學(xué)成都夏宏高級(jí)工程師四川通信服務(wù)有限公司成都申請(qǐng)學(xué)位級(jí)別碩士專業(yè)學(xué)位類別工程碩士工程領(lǐng)域名稱軟件工程提交論文日期2015.3.15論文答辯日期2015.6.15學(xué)位授予單位和日期電子科技大學(xué)2015年6月答辯委員會(huì)主席評(píng)閱人注1:注明《國(guó)際十進(jìn)分類法UDC》的類號(hào)。DesignandApplicationofOntology-basedWebCrawlerAMast
4、erThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMasterofEngineeringMajor:XiaoTanAuthor:YuLiangDongSupervisor:School:SchoolofPhysicalElectronics摘要摘要過去的幾十年里,我們一起見證了因特網(wǎng)的迅猛發(fā)展和網(wǎng)絡(luò)信息的不斷膨脹。但是隨著信息量的逐漸增加,傳統(tǒng)的網(wǎng)絡(luò)爬蟲已經(jīng)不能很好地滿足用戶對(duì)爬蟲性能的需求。因此基于本體的網(wǎng)絡(luò)爬蟲應(yīng)運(yùn)而生,它的出現(xiàn)很大程度地提高了爬蟲對(duì)某個(gè)領(lǐng)域的查準(zhǔn)率。而
5、本體在網(wǎng)絡(luò)爬蟲中的應(yīng)用,大大減小了一詞多義給主題爬蟲帶來的不精確性。目前,基于本體的網(wǎng)絡(luò)爬蟲技術(shù)還不夠成熟,在一些大型的搜索引擎中并未采用此技術(shù)。不過隨著搜索引擎技術(shù)不斷的發(fā)展和人們對(duì)網(wǎng)絡(luò)搜索技術(shù)要求的提高,基于本體的網(wǎng)絡(luò)爬蟲將會(huì)為未來的搜索領(lǐng)域開辟一塊新的天地。本文對(duì)基于本體的網(wǎng)絡(luò)爬蟲進(jìn)行了深入的研究。在詳細(xì)地闡述了網(wǎng)絡(luò)爬蟲和本體論的知識(shí)之后,全面地介紹了基于本體網(wǎng)絡(luò)爬蟲的模型,并且對(duì)模型各個(gè)模塊進(jìn)行了詳細(xì)的分析。同時(shí)本文結(jié)合國(guó)內(nèi)外對(duì)基于本體網(wǎng)絡(luò)爬蟲的研究,提出了構(gòu)建基于本體網(wǎng)絡(luò)爬蟲的基本方法。本文完成的工作具體如下:首先,本文結(jié)合了本體論的基本知識(shí),選取
6、了計(jì)算機(jī)教育領(lǐng)域作為本體,對(duì)該領(lǐng)域進(jìn)行了全面的分析并且使用開源軟件Protégé來構(gòu)建基于網(wǎng)絡(luò)本體語言(OWL)的本體模型。其次,本文詳細(xì)地介紹了空間向量模型。該方法將頁面和本體用向量來表示,通過計(jì)算向量之間的夾角來衡量鏈接與領(lǐng)域之間的相關(guān)度。接著,本文采用了Java語言來實(shí)現(xiàn)基于本體的網(wǎng)絡(luò)爬蟲系統(tǒng),并且將本體論的知識(shí),向量模型,與網(wǎng)絡(luò)爬蟲的技術(shù)相結(jié)合,全面地介紹了基于本體網(wǎng)絡(luò)爬蟲的每一個(gè)模塊的實(shí)現(xiàn)細(xì)節(jié)。最后,本文對(duì)網(wǎng)絡(luò)爬蟲爬取的信息進(jìn)行了全面的分析,用查準(zhǔn)率與查全率作為本體爬蟲性能的衡量指標(biāo)。綜合地展示了基于本體的網(wǎng)絡(luò)爬蟲的性能。通過實(shí)驗(yàn)結(jié)果我們可以看出,
7、基于本體的網(wǎng)絡(luò)爬蟲在查準(zhǔn)率上要比傳統(tǒng)的網(wǎng)絡(luò)爬蟲高很多。采用這種網(wǎng)絡(luò)爬蟲將可以對(duì)某個(gè)領(lǐng)域的網(wǎng)頁面進(jìn)行定向的搜集,從而為基于主題的搜索引擎提供頁面基礎(chǔ)。關(guān)鍵詞:網(wǎng)絡(luò)爬蟲,本體,搜索引擎,查準(zhǔn)率IABSTRACTABSTRACTOverthepastfewdecades,wewitnessaremarkabledevelopmentinInternetandexpansionofnetworkinformation.Butwiththeincreasingofinformation,thetraditionalwebcrawlercannolongersatisf
8、ytheperformanceneedsofuser