資源描述:
《基于本體的信息檢索模型結構.ppt》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、基于本體的信息檢索模型結構:它主要由查詢界面、查詢引擎、推理引擎、索引器和檢索器等5部分構成.構成部分的作用:查詢界面的主要作用是輸入用戶查詢、顯示查詢結果;查詢引擎和推理引擎協(xié)同工作,負責查詢推理知識庫中與用戶查詢相關的信息,然后將查詢結果交給檢索器;索引器理解文檔庫中的信息,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表;檢索器根據用戶查詢在索引庫中快速檢索出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序.索引項:本模型以RDF(資源描述框架)三元組和關鍵字作為索引項,因此,需要對標準倒排索引結構進行適當的修改.標準倒排索引結構由詞表(vocabulary)和
2、記錄表(postinglists)兩部分構成,在語義檢索中采用倒排索引結構需要對其增加用于存儲文檔與知識庫信息關聯(lián)的域.一個語義索引項由4部分構成,其中term為詞表中的詞項用于關鍵字查詢.docID為文檔編號,proID用來標識出現(xiàn)在文檔中的實例,它與知識庫中RDF三元組的propertyID對應.用frequency記錄關鍵字索引項出現(xiàn)的頻率,便于計算相似度并對文檔排序.查詢處理:根據用戶掌握查詢語言的能力不同,查詢界面采用表格形式提供兩種交互方式供用戶靈活選用:基于OWL-QL語言的查詢和基于本體的關鍵字查詢.OWL-Q
3、L是一種基于描述邏輯的面向OWL的形式化查詢語言,提供?查詢回答%服務對使用標準本體語言OWL(網絡本體語言)描述的知識庫進行查詢.該機制能夠準確詳細地說明查詢請求、查詢回答以及知識庫三者之間的語義關系.查詢引擎將用戶查詢輸入轉換為標準查詢格式后交給推理引擎,推理引擎在KB上運行并將查詢結果經查詢引擎交給檢索器,該結果決定了檢索文檔的方式.查詢處理:1)若KB(知識庫結構)中存在或經推理引擎推理得到與用戶查詢對應的出現(xiàn)在文檔中的所有RDF實例信息,那么,查詢引擎將這些實例信息與其propertyID一起輸出給檢索器.2)若KB中不存在與用戶查詢相關的文檔實例,則查詢引擎使用KB中本
4、體概念間的等價和特化關系,對用戶查詢中的關鍵字進行語義擴展,擴展后的概念與原始查詢關鍵字一起經查詢引擎輸出,交給檢索器.查詢結果排序:Case1:KB中存在與查詢請求Q相關的實例.在包含Ii的文檔中,含有與實例Ii有關系r的其他實例越多,則該文檔的相關性相對就越小.具體相關性由以下公式度量:其中:顯然,只有在關系r下,與Ii相關的實例唯一時,查詢相關性取到最大值1.若KB中不存Ii令Rel(r(I1,I2,...,In))為0.Case2:KB中不存在與查詢請求Q相關的實例.步驟1:基于查詢Q中關鍵字K在每個文檔中出現(xiàn)的頻率,先使用簡單的TFIDF算法計算K在文檔Dj中的權重wk
5、,j;步驟2:將查詢Q中的關鍵字K看作本體概念,與使用KB中本體概念間的特化關系將K擴展后一起構成的集合記為S={K,K1,K2,...,Kn},在查詢時用K替換文檔Dj中Ki的出現(xiàn),其中Ki屬于S,即然后用代替式wi,j中的fK,j計算關鍵字K在文檔Dj中的權重wk,j步驟3:計算文檔向量dj=(w1,j,w2,j,...,wn,j)與查詢向量q=(w1,Q,w2,Q,...,wn,Q)間的相似度:用K替換文檔Dj中Ki的出現(xiàn),將Dj中與關鍵字K相關的概念聚集到一起.這種方法能夠很好地反映出查詢詞在整個文檔集合中被實際使用的情況,從而可以有效改進Dj在查詢結果中的排列次序.綜合C
6、ase1和Case2,計算文檔Dj與查詢Q間的相似度:sim(Dj,Q)=Rel((r,I1,I2,!,In))+ksim(Dj,Q),按照sim(Dj,Q)值由大到小的順序,將查詢結果排序.關于模型實用性驗證:本體檢索模型仍需使用查全率(recall)和查準率(precision)兩個指標來評價.基于以上框架,通過閱讀150篇動物文檔,為文檔中出現(xiàn)的概念手工構造出了包含122個領域類的動物本體,858個實例用來作為KB;實驗中文檔庫由1070篇動物方面的文檔構成,并標識出了1821個實例.圖2中從查全率和查準率兩個方面比較了基于本體的語義檢索與使用傳統(tǒng)向量空間模型的關鍵字查詢.實
7、驗說明,與傳統(tǒng)搜索引擎相比,通過使用本體知識庫,可以有效地提高系統(tǒng)的查全率和查準率.