資源描述:
《基于本體的語義檢索系統(tǒng)的研究與應(yīng)用new》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、http://www.paper.edu.cn基于本體的語義檢索系統(tǒng)的研究與應(yīng)用董濤,孟祥武北京郵電大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,北京(100876)E-mail:tdong2005@yahoo.com.cn摘要:基于本體查詢的語義檢索是建立在SemanticWeb基礎(chǔ)之上的一種檢索技術(shù)。與傳統(tǒng)搜索引擎技術(shù)相比,它極大地提高了系統(tǒng)的查全率和查準(zhǔn)率。文章首先介紹了語義網(wǎng)和本體的基本概念,然后通過實(shí)際舉例的概念層次圖詳盡地闡述了本體中概念及其關(guān)系的具體意義。最后利用本體構(gòu)建工具Protege并結(jié)合本體的相關(guān)標(biāo)準(zhǔn)共同構(gòu)建本體,通過JenaA
2、PI實(shí)現(xiàn)了基于OWL本體文件的語義查詢系統(tǒng)。關(guān)鍵詞:本體,語義網(wǎng),OWL,Jena,Protege0.引言隨著Internet的迅猛發(fā)展,互聯(lián)網(wǎng)上的信息正在隨指數(shù)的速度在迅速增長,出現(xiàn)了信息爆炸的問題。在如此浩瀚的信息海洋中,檢索到有價值的信息成為當(dāng)前計算機(jī)檢索系統(tǒng)必須解決的問題。因此,信息檢索技術(shù)成為當(dāng)前熱門的研究課題。目前,最主要的信息檢索技術(shù)有兩種。一種是基于目錄的檢索技術(shù),它將相關(guān)主題的頁面組織起來,形成一棵目錄樹。因此,檢索的過程,就是遍歷一棵目錄樹的過程。另一種是基于關(guān)鍵字匹配的檢索技術(shù),也是最常見的檢索技術(shù)[1]。以
3、上兩種信息檢索技術(shù)在查全率和查準(zhǔn)率方面還存在著很多欠缺之處。例如:當(dāng)用戶查詢番茄時,搜索引擎只會將包含有“番茄”一詞的頁面提供給用戶,而不會把包含有“西紅柿”一詞的頁面也返回給用戶。因此,這就存在著查全率的問題。與此同時,搜索引擎會把包含有“番茄花園”的頁面返回給用戶,但這并不是用戶想得到的,因此,這在查準(zhǔn)率方面就出現(xiàn)了問題。為了解決查全率和查準(zhǔn)率的問題,就需要提高信息檢索技術(shù)的精度和覆蓋率。如何使搜索引擎更加智能化,使它能夠充分理解用戶的意圖,是信息檢索技術(shù)需要迫切解決的問題。近年來,語義網(wǎng)的提出為增強(qiáng)搜索引擎的智能化提供了良好
4、的解決方案。它將網(wǎng)絡(luò)中的各種資源結(jié)構(gòu)化,使得計算機(jī)能夠識別、處理。計算機(jī)首先將檢索詞本體化,檢索引擎通過解析、推理,然后將相關(guān)資源從本體庫中提取出來,最后返回給用戶。這種智能的檢索技術(shù)能夠提高用戶的滿意度,減少不相關(guān)的結(jié)果,得到更多相關(guān)的結(jié)果。本文從構(gòu)建本體及其本體庫的角度出發(fā),結(jié)合實(shí)際的應(yīng)用,闡述如何建立語義檢索系統(tǒng)進(jìn)行信息檢索。1.語義網(wǎng)與本體的概述1.1語義網(wǎng)在2000年11月的XML2000會議上,TimBerners-Lee首次提出了語義Web的概念。他將語義Web定義為:語義Web是一個網(wǎng),它包含了文檔或文檔的一部分,
5、描述了事物間的明顯關(guān)系,且包含語義信息,以利于機(jī)器的自動處理。他于2000年提出了語義Web的體系結(jié)構(gòu)[2],如下圖所示:-1-http://www.paper.edu.cn圖1語義Web的體系結(jié)構(gòu)語義Web并不是要取代現(xiàn)有的Web,而是擴(kuò)展。擴(kuò)展的方式是對現(xiàn)有信息進(jìn)行形式化的描述,目的是機(jī)器可理解,以便計算機(jī)更好地提供信息服務(wù)。簡單的說,語義Web就是要給Web加上注釋,為了讓計算機(jī)能夠理解,這種注釋必須用一種形式化的語言進(jìn)行描述,并且支持推理。為了多個系統(tǒng)之間能夠交流,這種注釋還應(yīng)該遵循統(tǒng)一明確的詞匯表。從整體看,語義網(wǎng)的核心
6、層為XML、RDF、Ontology。XML+RDF+Ontology構(gòu)成了計算機(jī)相互理解的基礎(chǔ)。在本體層之上進(jìn)一步要做一些邏輯推理的工作,接下來就是保證信息是可信賴的,這就構(gòu)成了一個多層次的語義網(wǎng)。上層將下層的語言機(jī)制作為本層的支撐語言,通過分析器,從合法有效的下層描述中抽取出本層所能理解的模型,實(shí)現(xiàn)了更多的語義處理功能。從目前的情況來看,語義Web下面三層的研究已經(jīng)開展較長時間,研究成果相對較多,并推出了一系列的標(biāo)準(zhǔn),可以說打下了比較堅實(shí)的基礎(chǔ)。本體層和邏輯層,正在引起更多的關(guān)注。作為語義Web中從語法處理向語義處理的轉(zhuǎn)折,這
7、兩層起著至關(guān)重要的作用,相關(guān)研究正處在探索之中,已有很多有意義的嘗試和應(yīng)用,卻還沒有成熟的技術(shù)和標(biāo)準(zhǔn),因此成為相關(guān)領(lǐng)域的研究熱點(diǎn)。頂部的兩層還沒有可靠論證,只是基于邏輯系統(tǒng)的一個構(gòu)想[9]。1.2本體Ontology的概念起源于哲學(xué)領(lǐng)域,即“對世界上客觀存在物的系統(tǒng)地描述”。后來,本體被引入人工智能領(lǐng)域。1998年Studer等人提出:“Ontology是共享概念模型的明確的形式化規(guī)范說明?!边@一定義已被多數(shù)人所認(rèn)同[6]。(1)概念模型:指通過抽象出客觀世界中的一些現(xiàn)象的相關(guān)概念而得到概念模型,即概念系統(tǒng)所蘊(yùn)涵的語義結(jié)構(gòu),是對某
8、一事實(shí)結(jié)構(gòu)的一組非正式的約束規(guī)則,可以理解和表達(dá)為一組概念(包括類、屬性和過程)、定義和關(guān)系。(2)明確:指所使用的概念的類型以及對這些概念使用上的約束都有了明確的定義。(3)形式化:指本體論是計算機(jī)可讀的(即能被計算機(jī)處理),而不是完全用自然語言