資源描述:
《基于本體的關(guān)系數(shù)據(jù)庫關(guān)鍵詞語義查詢擴(kuò)展方法.doc》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、基于本體的關(guān)系數(shù)據(jù)庫關(guān)鍵詞語義查詢擴(kuò)展方法*國家自然科學(xué)基金(60773100),國家“十一五”科技支撐計劃(2006BAK05BO2),河北省自然科學(xué)基金(F2009000475)。郗君甫,劉國華,唐軍軍,祁瑞麗,朱鶴(燕山大學(xué)信息科學(xué)與工程學(xué)院,河北秦皇島066004)摘要:目前關(guān)系數(shù)據(jù)庫關(guān)鍵詞查詢技術(shù)主要利用關(guān)鍵詞的語法匹配,而沒有利用數(shù)據(jù)之間的語義關(guān)系進(jìn)行匹配,導(dǎo)致查詢效果往往都不太令人滿意。為了改善查詢效果,結(jié)合本體概念,提出了基于本體的關(guān)系數(shù)據(jù)庫關(guān)鍵詞查詢的語義查詢擴(kuò)展方法,把用戶提交的查詢關(guān)鍵詞擴(kuò)展為基于本體的語義關(guān)鍵詞。實例分析表明,擴(kuò)展后的語義關(guān)鍵詞盡可能
2、符合用戶的真實意愿。關(guān)鍵詞:關(guān)鍵詞;本體;概念樹;語義相似度中圖分類號:0引言關(guān)系數(shù)據(jù)庫上的關(guān)鍵詞查詢[1-4]已成為數(shù)據(jù)庫和信息檢索領(lǐng)域的研究熱點之一。關(guān)系數(shù)據(jù)庫關(guān)鍵詞查詢(KeywordQueryOverRelationalDatabases,KQORD)使得用戶通過提交查詢關(guān)鍵詞來訪問關(guān)系數(shù)據(jù)庫,而無需了解數(shù)據(jù)庫模式,也不用懂得書寫SQL查詢,也不需要學(xué)習(xí)和使用關(guān)系數(shù)據(jù)庫的定制的查詢界面。一般是基于關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)提供的全文檢索技術(shù)來實現(xiàn)的。這種訪問方式僅僅采用語法匹配,而沒有利用數(shù)據(jù)之間的語義關(guān)系(如同義詞、上下位、轉(zhuǎn)喻等)進(jìn)行語義匹配,導(dǎo)致它們的查
3、詢效果(查全率和查準(zhǔn)率)不太令人滿意。在信息檢索領(lǐng)域,為解決這一問題,目前多采用查詢擴(kuò)展技術(shù)。查詢擴(kuò)展(QueryExpansion,QE),是公認(rèn)的能夠有效提高查全率的技術(shù)之一,其基本思想是利用與查詢關(guān)鍵詞相關(guān)的詞語對查詢進(jìn)行修正和補充,以便找到更多的相關(guān)文檔,提高查全率。然而在提高查全率的同時難以保證查準(zhǔn)率[5],根本原因在于,人們在現(xiàn)實生活中描述同樣的對象或事件的用詞存在多樣性。為了解決這個問題,人們提出了基于本體的語義查詢擴(kuò)展方法,用概念來描述查詢主旨,找到與查詢語義相關(guān)的概念進(jìn)行擴(kuò)展[6],篩選出那些語義相似度超過系統(tǒng)設(shè)定閾值的概念形成新的查詢關(guān)鍵詞(語義關(guān)鍵詞)
4、,此方法可有效的提高查詢結(jié)果的查全率,并改善查準(zhǔn)率[7]。為了改善KQORD的查詢效果,把信息檢索領(lǐng)域的查詢擴(kuò)展技術(shù)應(yīng)用到KQORD技術(shù)中,提出了基于本體的關(guān)系數(shù)據(jù)庫關(guān)鍵詞查詢的語義查詢擴(kuò)展方法,把用戶提交的查詢關(guān)鍵詞進(jìn)行語義查詢擴(kuò)展,將其擴(kuò)展為基于本體的語義關(guān)鍵詞。實例分析表明,擴(kuò)展后的語義關(guān)鍵詞盡可能符合用戶的真實意愿。將該方法應(yīng)用到目前的關(guān)系數(shù)據(jù)庫查詢技術(shù)中,可使得KQORD轉(zhuǎn)換成基于本體的關(guān)系數(shù)據(jù)庫語義查詢,為KQORD提高查詢效果提供了一條新的方法和途徑。1基本定義所謂本體,通俗地講,是用來描述某個領(lǐng)域甚至更廣范圍內(nèi)的概念以及概念之間的關(guān)系,是概念和概念之間的集合
5、[8]。目前,本體已經(jīng)被廣泛應(yīng)用于語義網(wǎng)、知識工程、信息檢索以及信息集成等方面。本體可表示為O(Cg,Rg,Hg),其中Cg是概念全集,即本體中的所有概念的集合,記為Cg{C1,C2,…,Cm},Rg是概念和概念之間的關(guān)系集合,Hg是層次集合。一個領(lǐng)域本體可能會有很多層次結(jié)構(gòu)(如父子關(guān)系、部分關(guān)系、相關(guān)關(guān)系等),而父子關(guān)系是本體的最重要的層次結(jié)構(gòu),也是基于本體的查詢處理最主要的層次結(jié)構(gòu)[9]。父子關(guān)系是一個偏序的關(guān)系,具有傳遞性、自反性、反對稱性等特點。如圖1所示,ACMClassificationSystem1998分類系統(tǒng)作為計算機(jī)領(lǐng)域本體來描述DBLP數(shù)據(jù)庫中的Pap
6、ers表的Title屬性,是一個父子關(guān)系的層次結(jié)構(gòu)。把本體看作概念樹Ct(O),如圖1所示的概念樹的根為最抽象的概念C(Root)。相關(guān)定義如下(定義8和定義12引自[10]):定義1:關(guān)系數(shù)據(jù)庫模式假設(shè)關(guān)系數(shù)據(jù)庫的模式,Sdb=(R,FK),R={R1,R2,…,Rk}是一組關(guān)系模式,F(xiàn)K是R中關(guān)系模式間引用關(guān)系的映射,F(xiàn)K:R?R,如果FK(Ri)=Rj,記為Ri?Rj(1£i,j£n),它表示Rj一個外鍵引用了Ri主鍵。定義2:數(shù)據(jù)庫模式圖假設(shè)Gs=(V,E)表示模式Sdb=(R,FK)的關(guān)系數(shù)據(jù)庫DB對應(yīng)的模式圖。Gs是一個有向圖,將DB中的每一個關(guān)系模式Rk(1£
7、k£n)看作是Gs的一個頂點,當(dāng)且僅當(dāng)關(guān)系模式Ri?Gs,關(guān)系模式Rj?Gs,(Ri?Rj)?FK時,(Ri,Rj)?E。定義3:連接元組樹給定一個關(guān)系數(shù)據(jù)庫DB的模式圖Gs=(V,E),T是以DB中的元組tl為結(jié)點的一棵樹,其中tl(1£l£m)是關(guān)系rk(1£k£m)中元組,關(guān)系rk(1£k£m)是關(guān)系模式Rk(1£k£n)上的實例,如果(Ri,Rj)?E且(titj)?(rirj),那么,(ti,tj)是T的一條邊,其中ti?ri,tj?rj,(1£i,j£n),稱T為一棵連接元組樹。定義4:關(guān)鍵詞查詢把關(guān)鍵