資源描述:
《基于本體的信息檢索》由會員上傳分享,免費在線閱讀,更多相關內容在行業(yè)資料-天天文庫。
1、基于本體的信息檢索吳素坤(東華大學圖書館上海圖書館)摘要:近年來,本體論(ontology)成為信息領域一個新的研究熱點,國內外大量文獻進行了本體在信息檢索上的應用研究。本文通過國內外基于本體的信息檢索的相關文獻分析,試圖描繪本體論可能或已經(jīng)帶給信息檢索模式的改變。1.引言隨著信息時代的到來以及互聯(lián)網(wǎng)的迅速普及和應用,每天都會產(chǎn)生出大量的、具有反復利用價值的信息。面對信息海洋,如何最快地查全查準所需要的信息成為我們共同關心的問題。目前的信息檢索,不論是網(wǎng)絡檢索還是在特定數(shù)據(jù)庫內檢索,其搜索機制往往是基于關鍵詞或主題內容的檢索。傳統(tǒng)信息檢索模型可示意如下圖
2、:圖1傳統(tǒng)的信息檢索模型[1]從圖1上可以看出,傳統(tǒng)的信息檢索是基于關鍵字的檢索技術,需要用戶將要尋找的事件以關鍵詞的形式較準確地描述出來,并最終以檢索表達式的形式提交給查詢系統(tǒng)。由于字義本身與其概念的延伸不在同一級上,造成利用傳統(tǒng)信息檢索所尋找的信息可能僅僅是字面本身的信息,但往往人們想要的是這個信息的概念及相關的成分,而不僅僅是字面所表達的信息。換言之,傳統(tǒng)信息檢索只是關注詞的模式匹配,而沒有能夠關注與處理詞的語義概念本身及其相關關系。理想的智能信息檢索系統(tǒng)的目標是:提供友好的用戶檢索交互界面;基于自然語言或實例的查詢;依據(jù)用戶瀏覽和檢索的習慣信息,
3、熟悉用戶的興趣愛好,建立一定的用戶描述,主動向用戶提供相關的信息;針對用戶查詢請求自動向用戶提供相關文檔頁面,不需用戶重復發(fā)現(xiàn)知識;綜合利用個性化檢索和集中瀏覽的優(yōu)勢;檢索速度快,能夠快速地返回查詢結果;高檢索率(多)和高檢索精度(準)。因此已有的信息檢索系統(tǒng)與理想的智能信息檢索系統(tǒng)相比,存在著很多不足。這就需要在現(xiàn)有信息檢索系統(tǒng)的理論和技術的基礎上,設計并實現(xiàn)符合特定領域需要的智能信息檢索系統(tǒng)和該系統(tǒng)的體系架構,從而實現(xiàn)分布式異構信息的預處理和遠程信息的自動獲取。有學者提出,基于本體的信息檢索模式是一種最有前途的檢索方法。1.知識本體的定義及其在信息檢
4、索中的應用2.1知識本體的定義近十年來,本體的研究日趨成熟。在各種文獻中,盡管與本體相關的概念和術語的用法并不完全一致,但是事實的使用約定已經(jīng)出現(xiàn)。以下僅列出本體的幾種比較有代表性的定義[2]。(1)????本體是對于“概念化”(conceptualization)的某一部分的明確的總結或表達。?(2)????本體在不同的場合分別指“概念化”或“本體理論”(ontologicaltheory)。?(3)????本體是用于描述或表達某一領域知識的一組概念或術語。它可以用來組織知識庫較高層次的知識抽象,也可以用來描述特定領域的知識。?(4)????本體屬于人
5、工智能領域中的內容理論(content?theories),它研究特定領域知識的對象分類、對象屬性和對象間的關系,它為領域知識的描述提供術語。?從以上定義我們可以知道,本體通過對于概念、術語及其相互關系的規(guī)范化描述,勾畫出某一領域的基本知識體系和描述語言。2.2知識本體在信息檢索中的應用基于本體的信息檢索可以實現(xiàn)用戶與本體所體現(xiàn)的概念和關系在檢索過程中的相互作用。目前,基于本體的信息檢索還處于原型和方法論的研究階段。還有很多與基于本體的信息檢索相關的技術問題有待解決。本體在信息檢索中的利用有多種途徑,一種可能的途徑是作為用戶輸入檢索詞界面[3],然后利用
6、本體,作為檢索策略的擴充。但是,結果是這種方法仍舊依賴自然語言的加工,并未給用戶以更大的檢索靈活性。另一種本體應用途徑是在用戶界面中揭示本體的技術結構,比如OntoBroker檢索界面[4],但是,這種應用途徑對信息檢索人員提出了很高的要求,防礙了非專家用戶的使用。下圖描述了典型的基于本體的信息檢索模型。圖2基于本體的信息檢索模型[5]圖2描繪了共享本體是如何改變在信息檢索過程中檢索表達式以及文獻的展現(xiàn)。另外,檢索表達式的制定過程中可以獲得一個或者多個本體的支持,這些本體都是在開始檢索之前用戶根據(jù)所需信息所屬的領域選擇的。另外文獻的展現(xiàn)應包括其一些邏輯概
7、念的描述,使文獻本身成為本體結構中的集成的一個部分,那么具體的文獻通過本體概念的描述管理使其在完整的本體結構找到自己的位置,這樣,信息檢索過程中的匹配過程就可以歸結為一種探察(exploration)過程,這種過程可以根據(jù)檢索提問的形式和邏輯解釋不同,有多種不同的實現(xiàn)方式。1.國內外基于本體的信息檢索研究近來,國內外關于基于本體的信息檢索方面的研究日益增多,以下作簡要介紹。Ontobroker[4]是用來處理HTML、XML和RDF格式的信息源和信息源語義描述的系統(tǒng),提供信息檢索、查詢和維護支持服務。核心是用形式化本體描述背景知識,并明確化Web文檔的語
8、義,以便綜合利用本體論的表達能力和推理機制。OntoSeek[5]是基于內容從在