《信息檢索理論模型》PPT課件

《信息檢索理論模型》PPT課件

ID:45182273

大?。?56.50 KB

頁數(shù):59頁

時間:2019-11-10

《信息檢索理論模型》PPT課件_第1頁
《信息檢索理論模型》PPT課件_第2頁
《信息檢索理論模型》PPT課件_第3頁
《信息檢索理論模型》PPT課件_第4頁
《信息檢索理論模型》PPT課件_第5頁
資源描述:

《《信息檢索理論模型》PPT課件》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。

1、第2章信息檢索理論模型7/17/20211信息檢索過程信息檢索過程實際上涉及到三個重要的處理:文檔集的邏輯表示查詢的表示相似匹配及其排序對上述因素和檢索過程建模(抽象描述),產生各種不同的信息檢索模型7/17/20212信息檢索模型分類信息檢索模型檢索模型瀏覽模型內容模型結構模型布爾模型矢量模型概率模型非重疊鏈表模型鄰近節(jié)點模型平坦模型結構導向模型超文本模型邏輯模型7/17/20213本章主要內容2.1布爾檢索模型2.2向量空間模型2.3概率檢索模型2.4信息檢索邏輯模型7/17/202142.1布爾檢索模型布爾檢索模型的理論基礎是

2、布爾邏輯和集合理論7/17/202152.1布爾檢索模型布爾邏輯主要內容:命題邏輯與謂詞邏輯布爾邏輯是數(shù)理邏輯的基礎部分利用符號來表示邏輯中的各種概念建立了一系列的運算法則,利用代數(shù)的方法研究邏輯問題7/17/20216布爾運算布爾邏輯運算符:“與(AND)”、“或(OR)”、“非(NOT)”運算的定義7/17/20217傳統(tǒng)布爾檢索模型文獻表示將文檔表示成一個集合,集合中的每個元素都為一個二元變量,取值非“0”即“1”,表示該元素所代表的主題詞是否包含在該篇文檔之內。若包括在文檔中,則元素取值為1,反之則取0。給定一個文獻集合D,

3、包含m篇文獻,分別用d1,d2,d3……dm表示。再給出一個標引詞集合T,包含n個標引詞t1,t2,……,tn。假定對文獻集D的描述完全是基于該標引詞集合的,則文獻集D中任意一篇文獻di就可以表示為(di1,di2,……,din)7/17/20218傳統(tǒng)布爾檢索模型查詢表示在布爾檢索系統(tǒng)中,根據(jù)用戶提出的檢索需求,選取適當?shù)臋z索標識,與布爾運算符“與”、“或”、“非”共同構成與查詢相符的檢索提問式,也即相應的布爾表達式例如,布爾提問式q=t1and(t2ornott3)q的主析取范式(t1andt2andt3)or(t1andt2a

4、ndnott3)or(t1andnott2andnott3)q的簡化形式qdnf(1,1,1)or(1,1,0)or(1,0,0),其中,(1,1,1)、(1,1,0)和(1,0,0)是qdnf的3個合取子項(合取子項可用符號qcc表示)7/17/20219傳統(tǒng)布爾檢索模型匹配函數(shù)7/17/202110傳統(tǒng)布爾檢索模型文獻D1=(t1,t2,nott3)查詢Q=t1andt2andnott37/17/202111傳統(tǒng)布爾查詢的評價該模型結構簡單、容易實現(xiàn)和快速檢索。7/17/202112傳統(tǒng)布爾查詢的評價布爾模型在檢索系統(tǒng)的開發(fā)與應

5、用中表現(xiàn)出的主要問題有:(1)準確匹配(exactmatching)策略問題。布爾模型采用準確匹配策略,對檢索過程中客觀存在的一些不確定性情形絕對排斥,認為一篇文獻對于某一提問要么是“相關的”,要么是“不相關的”。這種“非此即彼”的二值判斷標準嚴重影響到檢索系統(tǒng)的性能改善,并帶來其他一些相關問題。(2)布爾邏輯表達用戶需求的能力問題。把用戶的一個信息需求轉換成一個恰當?shù)牟紶柋磉_式,在很多情況下并不容易實現(xiàn)。7/17/202113傳統(tǒng)布爾查詢的評價為了彌補這些缺陷,發(fā)展了一些別的檢索模型,如向量空間、擴展布爾、概率檢索和聚類模型。7/

6、17/2021142.2向量空間模型2.2.1傳統(tǒng)向量空間檢索2.2.2項的權重模式2.2.3相似度的計算2.2.4潛在語義標引7/17/2021152.2.1傳統(tǒng)向量空間檢索向量空間模型(Vectorspacemodel)介紹向量空間模型(VSM)的評價7/17/202116向量空間模型介紹1.文獻空間(1)文獻空間的概念文獻集合中的任一文獻都可以表示為這個多維空間中的一個向量,這個空間就稱為“文獻空間”在一個文獻空間內,用向量D1來代表某一文獻,則該向量在這個文獻空間各個軸上的分量就是相應的表述該文獻的各個項的權重文獻與空間點(

7、2)標引詞空間7/17/202117向量空間模型介紹T2T3T1D1={d11,d12,d13}D2={d21,d22,d23}D3={d31,d32,d33}圖三維文獻空間7/17/202118向量空間模型介紹2.項權重(1)詞頻越重要的項分配越高的權值可以用詞頻來作為該項的權重(用tf表示)(2)文獻頻率假設存在一個文獻集合,其中大部分的文獻都包含了某一項,則說明該項對某一主題的專指度較差,可能就不太重要在設計項權重時,要考慮逆文獻頻率(用idf表示)7/17/202119向量空間模型介紹2.項權重(3)權重的規(guī)范化處理為了抵消

8、由篇幅帶來的不同影響,經常要對項權重進行規(guī)范化處理在各種規(guī)范化方法中,余弦規(guī)范是一種常用、有效的方法:tf×idf權重/文獻向量的歐氏長度7/17/202120向量空間模型介紹3.文獻向量與查詢向量的匹配匹配函數(shù)利用向量的內積運算,得

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。