資源描述:
《基于本體的信息檢索模型結(jié)構(gòu).ppt》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、基于本體的信息檢索模型結(jié)構(gòu):它主要由查詢界面、查詢引擎、推理引擎、索引器和檢索器等5部分構(gòu)成.構(gòu)成部分的作用:查詢界面的主要作用是輸入用戶查詢、顯示查詢結(jié)果;查詢引擎和推理引擎協(xié)同工作,負(fù)責(zé)查詢推理知識庫中與用戶查詢相關(guān)的信息,然后將查詢結(jié)果交給檢索器;索引器理解文檔庫中的信息,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表;檢索器根據(jù)用戶查詢在索引庫中快速檢索出文檔,進(jìn)行文檔與查詢的相關(guān)度評價,對將要輸出的結(jié)果進(jìn)行排序.索引項:本模型以RDF(資源描述框架)三元組和關(guān)鍵字作為索引項,因此,需要對標(biāo)準(zhǔn)倒排索引結(jié)構(gòu)進(jìn)行適當(dāng)?shù)男薷?標(biāo)準(zhǔn)倒排索引結(jié)構(gòu)由詞表(vocabulary)和
2、記錄表(postinglists)兩部分構(gòu)成,在語義檢索中采用倒排索引結(jié)構(gòu)需要對其增加用于存儲文檔與知識庫信息關(guān)聯(lián)的域.一個語義索引項由4部分構(gòu)成,其中term為詞表中的詞項用于關(guān)鍵字查詢.docID為文檔編號,proID用來標(biāo)識出現(xiàn)在文檔中的實例,它與知識庫中RDF三元組的propertyID對應(yīng).用frequency記錄關(guān)鍵字索引項出現(xiàn)的頻率,便于計算相似度并對文檔排序.查詢處理:根據(jù)用戶掌握查詢語言的能力不同,查詢界面采用表格形式提供兩種交互方式供用戶靈活選用:基于OWL-QL語言的查詢和基于本體的關(guān)鍵字查詢.OWL-Q
3、L是一種基于描述邏輯的面向OWL的形式化查詢語言,提供?查詢回答%服務(wù)對使用標(biāo)準(zhǔn)本體語言O(shè)WL(網(wǎng)絡(luò)本體語言)描述的知識庫進(jìn)行查詢.該機制能夠準(zhǔn)確詳細(xì)地說明查詢請求、查詢回答以及知識庫三者之間的語義關(guān)系.查詢引擎將用戶查詢輸入轉(zhuǎn)換為標(biāo)準(zhǔn)查詢格式后交給推理引擎,推理引擎在KB上運行并將查詢結(jié)果經(jīng)查詢引擎交給檢索器,該結(jié)果決定了檢索文檔的方式.查詢處理:1)若KB(知識庫結(jié)構(gòu))中存在或經(jīng)推理引擎推理得到與用戶查詢對應(yīng)的出現(xiàn)在文檔中的所有RDF實例信息,那么,查詢引擎將這些實例信息與其propertyID一起輸出給檢索器.2)若KB中不存在與用戶查詢相關(guān)的文檔實例,則查詢引擎使用KB中本
4、體概念間的等價和特化關(guān)系,對用戶查詢中的關(guān)鍵字進(jìn)行語義擴展,擴展后的概念與原始查詢關(guān)鍵字一起經(jīng)查詢引擎輸出,交給檢索器.查詢結(jié)果排序:Case1:KB中存在與查詢請求Q相關(guān)的實例.在包含Ii的文檔中,含有與實例Ii有關(guān)系r的其他實例越多,則該文檔的相關(guān)性相對就越小.具體相關(guān)性由以下公式度量:其中:顯然,只有在關(guān)系r下,與Ii相關(guān)的實例唯一時,查詢相關(guān)性取到最大值1.若KB中不存Ii令Rel(r(I1,I2,...,In))為0.Case2:KB中不存在與查詢請求Q相關(guān)的實例.步驟1:基于查詢Q中關(guān)鍵字K在每個文檔中出現(xiàn)的頻率,先使用簡單的TFIDF算法計算K在文檔Dj中的權(quán)重wk
5、,j;步驟2:將查詢Q中的關(guān)鍵字K看作本體概念,與使用KB中本體概念間的特化關(guān)系將K擴展后一起構(gòu)成的集合記為S={K,K1,K2,...,Kn},在查詢時用K替換文檔Dj中Ki的出現(xiàn),其中Ki屬于S,即然后用代替式wi,j中的fK,j計算關(guān)鍵字K在文檔Dj中的權(quán)重wk,j步驟3:計算文檔向量dj=(w1,j,w2,j,...,wn,j)與查詢向量q=(w1,Q,w2,Q,...,wn,Q)間的相似度:用K替換文檔Dj中Ki的出現(xiàn),將Dj中與關(guān)鍵字K相關(guān)的概念聚集到一起.這種方法能夠很好地反映出查詢詞在整個文檔集合中被實際使用的情況,從而可以有效改進(jìn)Dj在查詢結(jié)果中的排列次序.綜合C
6、ase1和Case2,計算文檔Dj與查詢Q間的相似度:sim(Dj,Q)=Rel((r,I1,I2,!,In))+ksim(Dj,Q),按照sim(Dj,Q)值由大到小的順序,將查詢結(jié)果排序.關(guān)于模型實用性驗證:本體檢索模型仍需使用查全率(recall)和查準(zhǔn)率(precision)兩個指標(biāo)來評價.基于以上框架,通過閱讀150篇動物文檔,為文檔中出現(xiàn)的概念手工構(gòu)造出了包含122個領(lǐng)域類的動物本體,858個實例用來作為KB;實驗中文檔庫由1070篇動物方面的文檔構(gòu)成,并標(biāo)識出了1821個實例.圖2中從查全率和查準(zhǔn)率兩個方面比較了基于本體的語義檢索與使用傳統(tǒng)向量空間模型的關(guān)鍵字查詢.實
7、驗說明,與傳統(tǒng)搜索引擎相比,通過使用本體知識庫,可以有效地提高系統(tǒng)的查全率和查準(zhǔn)率.