資源描述:
《基于本體的關(guān)系數(shù)據(jù)庫(kù)關(guān)鍵詞語(yǔ)義查詢擴(kuò)展方法》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫(kù)。
1、基于本體的關(guān)系數(shù)據(jù)庫(kù)關(guān)鍵詞語(yǔ)義查詢擴(kuò)展方法*國(guó)家自然科學(xué)基金(60773100),國(guó)家“十一五”科技支撐計(jì)劃(2006BAK05BO2),河北省自然科學(xué)基金(F2009000475)。郗君甫,劉國(guó)華,唐軍軍,祁瑞麗,朱鶴(燕山大學(xué)信息科學(xué)與工程學(xué)院,河北秦皇島066004)摘要:目前關(guān)系數(shù)據(jù)庫(kù)關(guān)鍵詞查詢技術(shù)主要利用關(guān)鍵詞的語(yǔ)法匹配,而沒(méi)有利用數(shù)據(jù)之間的語(yǔ)義關(guān)系進(jìn)行匹配,導(dǎo)致查詢效果往往都不太令人滿意。為了改善查詢效果,結(jié)合本體概念,提出了基于本體的關(guān)系數(shù)據(jù)庫(kù)關(guān)鍵詞查詢的語(yǔ)義查詢擴(kuò)展方法,把用戶提交的查詢關(guān)鍵詞擴(kuò)展為基于本體的語(yǔ)義關(guān)鍵詞。實(shí)例分析表明,擴(kuò)展后的語(yǔ)義關(guān)鍵詞盡可能符合用
2、戶的真實(shí)意愿。關(guān)鍵詞:關(guān)鍵詞;本體;概念樹(shù);語(yǔ)義相似度中圖分類號(hào):0引言關(guān)系數(shù)據(jù)庫(kù)上的關(guān)鍵詞查詢[1-4]已成為數(shù)據(jù)庫(kù)和信息檢索領(lǐng)域的研究熱點(diǎn)之一。關(guān)系數(shù)據(jù)庫(kù)關(guān)鍵詞查詢(KeywordQueryOverRelationalDatabases,KQORD)使得用戶通過(guò)提交查詢關(guān)鍵詞來(lái)訪問(wèn)關(guān)系數(shù)據(jù)庫(kù),而無(wú)需了解數(shù)據(jù)庫(kù)模式,也不用懂得書寫SQL查詢,也不需要學(xué)習(xí)和使用關(guān)系數(shù)據(jù)庫(kù)的定制的查詢界面。一般是基于關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)提供的全文檢索技術(shù)來(lái)實(shí)現(xiàn)的。這種訪問(wèn)方式僅僅采用語(yǔ)法匹配,而沒(méi)有利用數(shù)據(jù)之間的語(yǔ)義關(guān)系(如同義詞、上下位、轉(zhuǎn)喻等)進(jìn)行語(yǔ)義匹配,導(dǎo)致它們的查詢效果(查全
3、率和查準(zhǔn)率)不太令人滿意。在信息檢索領(lǐng)域,為解決這一問(wèn)題,目前多采用查詢擴(kuò)展技術(shù)。查詢擴(kuò)展(QueryExpansion,QE),是公認(rèn)的能夠有效提高查全率的技術(shù)之一,其基本思想是利用與查詢關(guān)鍵詞相關(guān)的詞語(yǔ)對(duì)查詢進(jìn)行修正和補(bǔ)充,以便找到更多的相關(guān)文檔,提高查全率。然而在提高查全率的同時(shí)難以保證查準(zhǔn)率[5],根本原因在于,人們?cè)诂F(xiàn)實(shí)生活中描述同樣的對(duì)象或事件的用詞存在多樣性。為了解決這個(gè)問(wèn)題,人們提出了基于本體的語(yǔ)義查詢擴(kuò)展方法,用概念來(lái)描述查詢主旨,找到與查詢語(yǔ)義相關(guān)的概念進(jìn)行擴(kuò)展[6],篩選出那些語(yǔ)義相似度超過(guò)系統(tǒng)設(shè)定閾值的概念形成新的查詢關(guān)鍵詞(語(yǔ)義關(guān)鍵詞),此方法可有效的提
4、高查詢結(jié)果的查全率,并改善查準(zhǔn)率[7]。為了改善KQORD的查詢效果,把信息檢索領(lǐng)域的查詢擴(kuò)展技術(shù)應(yīng)用到KQORD技術(shù)中,提出了基于本體的關(guān)系數(shù)據(jù)庫(kù)關(guān)鍵詞查詢的語(yǔ)義查詢擴(kuò)展方法,把用戶提交的查詢關(guān)鍵詞進(jìn)行語(yǔ)義查詢擴(kuò)展,將其擴(kuò)展為基于本體的語(yǔ)義關(guān)鍵詞。實(shí)例分析表明,擴(kuò)展后的語(yǔ)義關(guān)鍵詞盡可能符合用戶的真實(shí)意愿。將該方法應(yīng)用到目前的關(guān)系數(shù)據(jù)庫(kù)查詢技術(shù)中,可使得KQORD轉(zhuǎn)換成基于本體的關(guān)系數(shù)據(jù)庫(kù)語(yǔ)義查詢,為KQORD提高查詢效果提供了一條新的方法和途徑。1基本定義所謂本體,通俗地講,是用來(lái)描述某個(gè)領(lǐng)域甚至更廣范圍內(nèi)的概念以及概念之間的關(guān)系,是概念和概念之間的集合[8]。目前,本體已經(jīng)被
5、廣泛應(yīng)用于語(yǔ)義網(wǎng)、知識(shí)工程、信息檢索以及信息集成等方面。本體可表示為O(Cg,Rg,Hg),其中Cg是概念全集,即本體中的所有概念的集合,記為Cg{C1,C2,…,Cm},Rg是概念和概念之間的關(guān)系集合,Hg是層次集合。一個(gè)領(lǐng)域本體可能會(huì)有很多層次結(jié)構(gòu)(如父子關(guān)系、部分關(guān)系、相關(guān)關(guān)系等),而父子關(guān)系是本體的最重要的層次結(jié)構(gòu),也是基于本體的查詢處理最主要的層次結(jié)構(gòu)[9]。父子關(guān)系是一個(gè)偏序的關(guān)系,具有傳遞性、自反性、反對(duì)稱性等特點(diǎn)。如圖1所示,ACMClassificationSystem1998分類系統(tǒng)作為計(jì)算機(jī)領(lǐng)域本體來(lái)描述DBLP數(shù)據(jù)庫(kù)中的Papers表的Title屬性,是一
6、個(gè)父子關(guān)系的層次結(jié)構(gòu)。把本體看作概念樹(shù)Ct(O),如圖1所示的概念樹(shù)的根為最抽象的概念C(Root)。相關(guān)定義如下(定義8和定義12引自[10]):定義1:關(guān)系數(shù)據(jù)庫(kù)模式假設(shè)關(guān)系數(shù)據(jù)庫(kù)的模式,Sdb=(R,FK),R={R1,R2,…,Rk}是一組關(guān)系模式,F(xiàn)K是R中關(guān)系模式間引用關(guān)系的映射,F(xiàn)K:R?R,如果FK(Ri)=Rj,記為Ri?Rj(1£i,j£n),它表示Rj一個(gè)外鍵引用了Ri主鍵。定義2:數(shù)據(jù)庫(kù)模式圖假設(shè)Gs=(V,E)表示模式Sdb=(R,FK)的關(guān)系數(shù)據(jù)庫(kù)DB對(duì)應(yīng)的模式圖。Gs是一個(gè)有向圖,將DB中的每一個(gè)關(guān)系模式Rk(1£k£n)看作是Gs的一個(gè)頂點(diǎn),當(dāng)且僅
7、當(dāng)關(guān)系模式Ri?Gs,關(guān)系模式Rj?Gs,(Ri?Rj)?FK時(shí),(Ri,Rj)?E。定義3:連接元組樹(shù)給定一個(gè)關(guān)系數(shù)據(jù)庫(kù)DB的模式圖Gs=(V,E),T是以DB中的元組tl為結(jié)點(diǎn)的一棵樹(shù),其中tl(1£l£m)是關(guān)系rk(1£k£m)中元組,關(guān)系rk(1£k£m)是關(guān)系模式Rk(1£k£n)上的實(shí)例,如果(Ri,Rj)?E且(titj)?(rirj),那么,(ti,tj)是T的一條邊,其中ti?ri,tj?rj,(1£i,j£n),稱T為一棵連接元組樹(shù)。定義4:關(guān)鍵詞查詢把關(guān)鍵