基于本體的信息檢索

基于本體的信息檢索

ID:16099782

大?。?29.50 KB

頁(yè)數(shù):7頁(yè)

時(shí)間:2018-08-07

基于本體的信息檢索_第1頁(yè)
基于本體的信息檢索_第2頁(yè)
基于本體的信息檢索_第3頁(yè)
基于本體的信息檢索_第4頁(yè)
基于本體的信息檢索_第5頁(yè)
資源描述:

《基于本體的信息檢索》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫(kù)

1、基于本體的信息檢索吳素坤(東華大學(xué)圖書(shū)館上海圖書(shū)館)摘要:近年來(lái),本體論(ontology)成為信息領(lǐng)域一個(gè)新的研究熱點(diǎn),國(guó)內(nèi)外大量文獻(xiàn)進(jìn)行了本體在信息檢索上的應(yīng)用研究。本文通過(guò)國(guó)內(nèi)外基于本體的信息檢索的相關(guān)文獻(xiàn)分析,試圖描繪本體論可能或已經(jīng)帶給信息檢索模式的改變。1.引言隨著信息時(shí)代的到來(lái)以及互聯(lián)網(wǎng)的迅速普及和應(yīng)用,每天都會(huì)產(chǎn)生出大量的、具有反復(fù)利用價(jià)值的信息。面對(duì)信息海洋,如何最快地查全查準(zhǔn)所需要的信息成為我們共同關(guān)心的問(wèn)題。目前的信息檢索,不論是網(wǎng)絡(luò)檢索還是在特定數(shù)據(jù)庫(kù)內(nèi)檢索,其搜索機(jī)制往往是基于關(guān)鍵詞或主題內(nèi)容的檢索。傳統(tǒng)

2、信息檢索模型可示意如下圖:圖1傳統(tǒng)的信息檢索模型[1]從圖1上可以看出,傳統(tǒng)的信息檢索是基于關(guān)鍵字的檢索技術(shù),需要用戶(hù)將要尋找的事件以關(guān)鍵詞的形式較準(zhǔn)確地描述出來(lái),并最終以檢索表達(dá)式的形式提交給查詢(xún)系統(tǒng)。由于字義本身與其概念的延伸不在同一級(jí)上,造成利用傳統(tǒng)信息檢索所尋找的信息可能僅僅是字面本身的信息,但往往人們想要的是這個(gè)信息的概念及相關(guān)的成分,而不僅僅是字面所表達(dá)的信息。換言之,傳統(tǒng)信息檢索只是關(guān)注詞的模式匹配,而沒(méi)有能夠關(guān)注與處理詞的語(yǔ)義概念本身及其相關(guān)關(guān)系。理想的智能信息檢索系統(tǒng)的目標(biāo)是:提供友好的用戶(hù)檢索交互界面;基于自然

3、語(yǔ)言或?qū)嵗牟樵?xún);依據(jù)用戶(hù)瀏覽和檢索的習(xí)慣信息,熟悉用戶(hù)的興趣愛(ài)好,建立一定的用戶(hù)描述,主動(dòng)向用戶(hù)提供相關(guān)的信息;針對(duì)用戶(hù)查詢(xún)請(qǐng)求自動(dòng)向用戶(hù)提供相關(guān)文檔頁(yè)面,不需用戶(hù)重復(fù)發(fā)現(xiàn)知識(shí);綜合利用個(gè)性化檢索和集中瀏覽的優(yōu)勢(shì);檢索速度快,能夠快速地返回查詢(xún)結(jié)果;高檢索率(多)和高檢索精度(準(zhǔn))。因此已有的信息檢索系統(tǒng)與理想的智能信息檢索系統(tǒng)相比,存在著很多不足。這就需要在現(xiàn)有信息檢索系統(tǒng)的理論和技術(shù)的基礎(chǔ)上,設(shè)計(jì)并實(shí)現(xiàn)符合特定領(lǐng)域需要的智能信息檢索系統(tǒng)和該系統(tǒng)的體系架構(gòu),從而實(shí)現(xiàn)分布式異構(gòu)信息的預(yù)處理和遠(yuǎn)程信息的自動(dòng)獲取。有學(xué)者提出,基于本

4、體的信息檢索模式是一種最有前途的檢索方法。1.知識(shí)本體的定義及其在信息檢索中的應(yīng)用2.1知識(shí)本體的定義近十年來(lái),本體的研究日趨成熟。在各種文獻(xiàn)中,盡管與本體相關(guān)的概念和術(shù)語(yǔ)的用法并不完全一致,但是事實(shí)的使用約定已經(jīng)出現(xiàn)。以下僅列出本體的幾種比較有代表性的定義[2]。(1)????本體是對(duì)于“概念化”(conceptualization)的某一部分的明確的總結(jié)或表達(dá)。?(2)????本體在不同的場(chǎng)合分別指“概念化”或“本體理論”(ontologicaltheory)。?(3)????本體是用于描述或表達(dá)某一領(lǐng)域知識(shí)的一組概念或術(shù)語(yǔ)。

5、它可以用來(lái)組織知識(shí)庫(kù)較高層次的知識(shí)抽象,也可以用來(lái)描述特定領(lǐng)域的知識(shí)。?(4)????本體屬于人工智能領(lǐng)域中的內(nèi)容理論(content?theories),它研究特定領(lǐng)域知識(shí)的對(duì)象分類(lèi)、對(duì)象屬性和對(duì)象間的關(guān)系,它為領(lǐng)域知識(shí)的描述提供術(shù)語(yǔ)。?從以上定義我們可以知道,本體通過(guò)對(duì)于概念、術(shù)語(yǔ)及其相互關(guān)系的規(guī)范化描述,勾畫(huà)出某一領(lǐng)域的基本知識(shí)體系和描述語(yǔ)言。2.2知識(shí)本體在信息檢索中的應(yīng)用基于本體的信息檢索可以實(shí)現(xiàn)用戶(hù)與本體所體現(xiàn)的概念和關(guān)系在檢索過(guò)程中的相互作用。目前,基于本體的信息檢索還處于原型和方法論的研究階段。還有很多與基于本體的

6、信息檢索相關(guān)的技術(shù)問(wèn)題有待解決。本體在信息檢索中的利用有多種途徑,一種可能的途徑是作為用戶(hù)輸入檢索詞界面[3],然后利用本體,作為檢索策略的擴(kuò)充。但是,結(jié)果是這種方法仍舊依賴(lài)自然語(yǔ)言的加工,并未給用戶(hù)以更大的檢索靈活性。另一種本體應(yīng)用途徑是在用戶(hù)界面中揭示本體的技術(shù)結(jié)構(gòu),比如OntoBroker檢索界面[4],但是,這種應(yīng)用途徑對(duì)信息檢索人員提出了很高的要求,防礙了非專(zhuān)家用戶(hù)的使用。下圖描述了典型的基于本體的信息檢索模型。圖2基于本體的信息檢索模型[5]圖2描繪了共享本體是如何改變?cè)谛畔z索過(guò)程中檢索表達(dá)式以及文獻(xiàn)的展現(xiàn)。另外,檢

7、索表達(dá)式的制定過(guò)程中可以獲得一個(gè)或者多個(gè)本體的支持,這些本體都是在開(kāi)始檢索之前用戶(hù)根據(jù)所需信息所屬的領(lǐng)域選擇的。另外文獻(xiàn)的展現(xiàn)應(yīng)包括其一些邏輯概念的描述,使文獻(xiàn)本身成為本體結(jié)構(gòu)中的集成的一個(gè)部分,那么具體的文獻(xiàn)通過(guò)本體概念的描述管理使其在完整的本體結(jié)構(gòu)找到自己的位置,這樣,信息檢索過(guò)程中的匹配過(guò)程就可以歸結(jié)為一種探察(exploration)過(guò)程,這種過(guò)程可以根據(jù)檢索提問(wèn)的形式和邏輯解釋不同,有多種不同的實(shí)現(xiàn)方式。1.國(guó)內(nèi)外基于本體的信息檢索研究近來(lái),國(guó)內(nèi)外關(guān)于基于本體的信息檢索方面的研究日益增多,以下作簡(jiǎn)要介紹。Ontobrok

8、er[4]是用來(lái)處理HTML、XML和RDF格式的信息源和信息源語(yǔ)義描述的系統(tǒng),提供信息檢索、查詢(xún)和維護(hù)支持服務(wù)。核心是用形式化本體描述背景知識(shí),并明確化Web文檔的語(yǔ)義,以便綜合利用本體論的表達(dá)能力和推理機(jī)制。OntoSeek[5]是基于內(nèi)容從在

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁(yè),下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫(huà)的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無(wú)此問(wèn)題,請(qǐng)放心下載。
2. 本文檔由用戶(hù)上傳,版權(quán)歸屬用戶(hù),天天文庫(kù)負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無(wú)法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶(hù)請(qǐng)聯(lián)系客服處理。