基于語義web的信息檢索系統(tǒng)研究與實(shí)現(xiàn)

基于語義web的信息檢索系統(tǒng)研究與實(shí)現(xiàn)

ID:34587757

大?。?.46 MB

頁數(shù):39頁

時(shí)間:2019-03-08

基于語義web的信息檢索系統(tǒng)研究與實(shí)現(xiàn)_第1頁
基于語義web的信息檢索系統(tǒng)研究與實(shí)現(xiàn)_第2頁
基于語義web的信息檢索系統(tǒng)研究與實(shí)現(xiàn)_第3頁
基于語義web的信息檢索系統(tǒng)研究與實(shí)現(xiàn)_第4頁
基于語義web的信息檢索系統(tǒng)研究與實(shí)現(xiàn)_第5頁
資源描述:

《基于語義web的信息檢索系統(tǒng)研究與實(shí)現(xiàn)》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、重慶人學(xué)碩十學(xué)位論文1緒論1.1問題的提出及研究意義1.1.1問題提出萬維網(wǎng)是一個(gè)巨大的信息資源庫,它的迅速發(fā)展和廣泛的使用已使人們足不出戶便能知道天下大事。一方面,萬維網(wǎng)為用戶提供了一個(gè)開放的信息共享資源平臺,相對于傳統(tǒng)的封閉式信息系統(tǒng)而言,人們能以最快的速度在全球范圍發(fā)布和共享信息資源;但另一方面,隨著信息量的高速增長,同樣也引發(fā)了“信息迷航”和“信息過載”等諸多問題,人們發(fā)現(xiàn)要在這個(gè)變化多端又魚龍混雜的信息海洋中,找尋有價(jià)值的信息并不是一件容易的事。因此,要充分發(fā)揮萬維網(wǎng)作為全球信息共享平臺的巨大優(yōu)勢,就必須解決如何有效的訪問萬維網(wǎng)上信息資源的問題。1.1.2研究意義在現(xiàn)

2、代社會,誰能掌握信息的主動權(quán),誰就能在競爭中處于有利地位。信息檢索技術(shù)能幫助人們在浩瀚的海洋中抽取對用戶有用的信息,能極大的節(jié)省用戶的查詢時(shí)間。調(diào)查數(shù)據(jù)顯示,目前有68.2%的人經(jīng)常使用搜索引擎,它是目前僅次于電子郵件的網(wǎng)絡(luò)應(yīng)用;另有41%的人通過搜索引擎進(jìn)入購物網(wǎng)站,84.6%的新網(wǎng)站是通過搜索引擎被發(fā)現(xiàn)。同時(shí),科學(xué)證明,搜索引擎是未知狀態(tài)下發(fā)現(xiàn)有效信息的最有效方式【l】。這些數(shù)據(jù)顯示,先進(jìn)的信息檢索技術(shù)對于網(wǎng)民和商業(yè)用戶來說,都是極具使用價(jià)值的。信息檢索主要是研究信息的表示、存儲、組織和訪問方法等問題【2】。國內(nèi)對智能信息檢索的研究相對來說比較分散,主要應(yīng)用到文學(xué)、計(jì)算機(jī)、

3、交通等領(lǐng)域f3】,信息檢索技術(shù)的研究和發(fā)展和這些相關(guān)領(lǐng)域的發(fā)展息息相關(guān),主要包括:信息的組織、存儲,索引,異質(zhì)數(shù)據(jù)源的集成和人工智能等技術(shù)。同樣的,對新型智能信息檢索技術(shù)的研究也能推動相關(guān)科研領(lǐng)域的發(fā)展。因此,智能信息檢索技術(shù)研究還具有較高的學(xué)術(shù)理論意義。1.2國內(nèi)外研究現(xiàn)狀及分析1.2.1國內(nèi)外研究現(xiàn)狀信息檢索通常指文本信息檢索,包括信息的存儲、組織、表現(xiàn)、存取等各個(gè)方面,其核心為文本信息的索引和檢索,起源于圖書館的參考咨詢和文摘索引工作?,F(xiàn)在,由于互聯(lián)網(wǎng)技術(shù)對信息傳播方式帶來了巨大的變化,也明顯的促進(jìn)了信息檢索技術(shù)的發(fā)展和應(yīng)用,一大批搜索引擎產(chǎn)品也隨之產(chǎn)生,為網(wǎng)民提供了快速

4、信息獲取和網(wǎng)絡(luò)信息導(dǎo)航工具。從某種程度上說,網(wǎng)絡(luò)信息檢索代表了當(dāng)代信息檢重慶大學(xué)碩十學(xué)位論文l緒論索的發(fā)展方向,所以,本文也將網(wǎng)絡(luò)信息檢索作為主要研究對象。搜索引擎按照一定的策略在互聯(lián)網(wǎng)中搜索和發(fā)現(xiàn)信息,并對信息進(jìn)行理解、提取、組織和處理,為用戶提供檢索任務(wù),從而起到信息導(dǎo)航的目的。①搜索引擎的工作原理包括如下3個(gè)過程:一是在互聯(lián)網(wǎng)中發(fā)現(xiàn)、搜索網(wǎng)頁信息。利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的Spider系統(tǒng)程序,自動的訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL鏈接行走,重復(fù)這一過程,把爬過的所有網(wǎng)頁資源收集起來,本階段也可以通過人工來完成;二是對所搜集的信息進(jìn)行提取和組織,并建立信息索

5、引庫。由分析索引系統(tǒng)程序?qū)λ占貋淼木W(wǎng)頁進(jìn)行分析,根據(jù)一定的特征提取算法提取網(wǎng)頁資源的特征信息,主要包括網(wǎng)頁URL、編碼類型、頁面內(nèi)容包括的關(guān)鍵字、關(guān)鍵字位置、生成時(shí)間、大小、與其它網(wǎng)頁的鏈接關(guān)系等原數(shù)據(jù)信息;三是根據(jù)資源對象的索引信息,進(jìn)行信息檢索和檢索結(jié)果集排序等操作;信息檢索程序根據(jù)用戶輸入的查詢關(guān)鍵詞,從索引數(shù)據(jù)庫中快速檢出相關(guān)信息對象,并對檢出的結(jié)果提供多種排序操作,最終將排序后的結(jié)果返回【4卅。②搜索引擎的分類按照信息搜索方法和服務(wù)提供方式的不同,搜索引擎系統(tǒng)可以分為三大類:機(jī)器人搜索引擎、目錄式搜索引擎和元搜索引掣‘7。91。Robot搜索引擎:由一個(gè)Robo

6、t(也稱為spider)的程序根據(jù)某種策略自動地在互聯(lián)網(wǎng)中搜索和發(fā)現(xiàn)信息,并將Robot程序搜索到的網(wǎng)頁信息加入到搜索數(shù)據(jù)庫中,工用戶查詢。其優(yōu)點(diǎn)是信息量大、更新及時(shí)、無需人工干預(yù),缺點(diǎn)是返回過多的無用信息,需要用戶對搜索結(jié)果進(jìn)行再次的篩選。這類搜索引擎的代表有:Google、Lycos等。目錄式搜索引擎:該搜索引擎的索引數(shù)據(jù)庫是由編目人員通過手工方式建立起來的,例如Yahoo、OpenDirectery等【10。11。這種索引由于在信息檢索中加入了人的智能,所以信息分類準(zhǔn)確、導(dǎo)航質(zhì)量高,缺點(diǎn)是需要投入大量的人力、維護(hù)量大、信息總量較少和更新困難。元搜索引擎:這類搜索引擎和其它

7、兩種的工作方式不同,它沒有自己的數(shù)據(jù),而是將用戶提交的查詢請求送到多個(gè)獨(dú)立的搜索引擎上面去搜索,并對各搜索引擎返回的檢索結(jié)果集中處理,以統(tǒng)一的格式提供給用戶,因此有元搜索引擎之稱。它的主要精力放在提高檢索速度、智能化處理檢索結(jié)果、提高個(gè)性化的檢索服務(wù)以及改善用戶檢索界面等方面。元搜索引擎最大的特點(diǎn)就是其本身并不能提供信息檢索服務(wù),而需要依賴于其它搜索引擎共同完成檢索任務(wù)。和其它兩種檢索系統(tǒng)相比較,其返回結(jié)果的信息量大、更全,缺點(diǎn)是不能充分發(fā)揮所使用收縮引擎的功能,也需要用戶做進(jìn)一步的篩選。例

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時(shí)可能會顯示錯(cuò)亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時(shí)聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請聯(lián)系客服處理。