《信息檢索理論模型》PPT課件

《信息檢索理論模型》PPT課件

ID:45182273

大?。?56.50 KB

頁數(shù):59頁

時間:2019-11-10

《信息檢索理論模型》PPT課件_第1頁
《信息檢索理論模型》PPT課件_第2頁
《信息檢索理論模型》PPT課件_第3頁
《信息檢索理論模型》PPT課件_第4頁
《信息檢索理論模型》PPT課件_第5頁
資源描述:

《《信息檢索理論模型》PPT課件》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、第2章信息檢索理論模型7/17/20211信息檢索過程信息檢索過程實際上涉及到三個重要的處理:文檔集的邏輯表示查詢的表示相似匹配及其排序?qū)ι鲜鲆蛩睾蜋z索過程建模(抽象描述),產(chǎn)生各種不同的信息檢索模型7/17/20212信息檢索模型分類信息檢索模型檢索模型瀏覽模型內(nèi)容模型結(jié)構(gòu)模型布爾模型矢量模型概率模型非重疊鏈表模型鄰近節(jié)點模型平坦模型結(jié)構(gòu)導(dǎo)向模型超文本模型邏輯模型7/17/20213本章主要內(nèi)容2.1布爾檢索模型2.2向量空間模型2.3概率檢索模型2.4信息檢索邏輯模型7/17/202142.1布爾檢索模型布爾檢索模型的理論基礎(chǔ)是

2、布爾邏輯和集合理論7/17/202152.1布爾檢索模型布爾邏輯主要內(nèi)容:命題邏輯與謂詞邏輯布爾邏輯是數(shù)理邏輯的基礎(chǔ)部分利用符號來表示邏輯中的各種概念建立了一系列的運(yùn)算法則,利用代數(shù)的方法研究邏輯問題7/17/20216布爾運(yùn)算布爾邏輯運(yùn)算符:“與(AND)”、“或(OR)”、“非(NOT)”運(yùn)算的定義7/17/20217傳統(tǒng)布爾檢索模型文獻(xiàn)表示將文檔表示成一個集合,集合中的每個元素都為一個二元變量,取值非“0”即“1”,表示該元素所代表的主題詞是否包含在該篇文檔之內(nèi)。若包括在文檔中,則元素取值為1,反之則取0。給定一個文獻(xiàn)集合D,

3、包含m篇文獻(xiàn),分別用d1,d2,d3……dm表示。再給出一個標(biāo)引詞集合T,包含n個標(biāo)引詞t1,t2,……,tn。假定對文獻(xiàn)集D的描述完全是基于該標(biāo)引詞集合的,則文獻(xiàn)集D中任意一篇文獻(xiàn)di就可以表示為(di1,di2,……,din)7/17/20218傳統(tǒng)布爾檢索模型查詢表示在布爾檢索系統(tǒng)中,根據(jù)用戶提出的檢索需求,選取適當(dāng)?shù)臋z索標(biāo)識,與布爾運(yùn)算符“與”、“或”、“非”共同構(gòu)成與查詢相符的檢索提問式,也即相應(yīng)的布爾表達(dá)式例如,布爾提問式q=t1and(t2ornott3)q的主析取范式(t1andt2andt3)or(t1andt2a

4、ndnott3)or(t1andnott2andnott3)q的簡化形式qdnf(1,1,1)or(1,1,0)or(1,0,0),其中,(1,1,1)、(1,1,0)和(1,0,0)是qdnf的3個合取子項(合取子項可用符號qcc表示)7/17/20219傳統(tǒng)布爾檢索模型匹配函數(shù)7/17/202110傳統(tǒng)布爾檢索模型文獻(xiàn)D1=(t1,t2,nott3)查詢Q=t1andt2andnott37/17/202111傳統(tǒng)布爾查詢的評價該模型結(jié)構(gòu)簡單、容易實現(xiàn)和快速檢索。7/17/202112傳統(tǒng)布爾查詢的評價布爾模型在檢索系統(tǒng)的開發(fā)與應(yīng)

5、用中表現(xiàn)出的主要問題有:(1)準(zhǔn)確匹配(exactmatching)策略問題。布爾模型采用準(zhǔn)確匹配策略,對檢索過程中客觀存在的一些不確定性情形絕對排斥,認(rèn)為一篇文獻(xiàn)對于某一提問要么是“相關(guān)的”,要么是“不相關(guān)的”。這種“非此即彼”的二值判斷標(biāo)準(zhǔn)嚴(yán)重影響到檢索系統(tǒng)的性能改善,并帶來其他一些相關(guān)問題。(2)布爾邏輯表達(dá)用戶需求的能力問題。把用戶的一個信息需求轉(zhuǎn)換成一個恰當(dāng)?shù)牟紶柋磉_(dá)式,在很多情況下并不容易實現(xiàn)。7/17/202113傳統(tǒng)布爾查詢的評價為了彌補(bǔ)這些缺陷,發(fā)展了一些別的檢索模型,如向量空間、擴(kuò)展布爾、概率檢索和聚類模型。7/

6、17/2021142.2向量空間模型2.2.1傳統(tǒng)向量空間檢索2.2.2項的權(quán)重模式2.2.3相似度的計算2.2.4潛在語義標(biāo)引7/17/2021152.2.1傳統(tǒng)向量空間檢索向量空間模型(Vectorspacemodel)介紹向量空間模型(VSM)的評價7/17/202116向量空間模型介紹1.文獻(xiàn)空間(1)文獻(xiàn)空間的概念文獻(xiàn)集合中的任一文獻(xiàn)都可以表示為這個多維空間中的一個向量,這個空間就稱為“文獻(xiàn)空間”在一個文獻(xiàn)空間內(nèi),用向量D1來代表某一文獻(xiàn),則該向量在這個文獻(xiàn)空間各個軸上的分量就是相應(yīng)的表述該文獻(xiàn)的各個項的權(quán)重文獻(xiàn)與空間點(

7、2)標(biāo)引詞空間7/17/202117向量空間模型介紹T2T3T1D1={d11,d12,d13}D2={d21,d22,d23}D3={d31,d32,d33}圖三維文獻(xiàn)空間7/17/202118向量空間模型介紹2.項權(quán)重(1)詞頻越重要的項分配越高的權(quán)值可以用詞頻來作為該項的權(quán)重(用tf表示)(2)文獻(xiàn)頻率假設(shè)存在一個文獻(xiàn)集合,其中大部分的文獻(xiàn)都包含了某一項,則說明該項對某一主題的專指度較差,可能就不太重要在設(shè)計項權(quán)重時,要考慮逆文獻(xiàn)頻率(用idf表示)7/17/202119向量空間模型介紹2.項權(quán)重(3)權(quán)重的規(guī)范化處理為了抵消

8、由篇幅帶來的不同影響,經(jīng)常要對項權(quán)重進(jìn)行規(guī)范化處理在各種規(guī)范化方法中,余弦規(guī)范是一種常用、有效的方法:tf×idf權(quán)重/文獻(xiàn)向量的歐氏長度7/17/202120向量空間模型介紹3.文獻(xiàn)向量與查詢向量的匹配匹配函數(shù)利用向量的內(nèi)積運(yùn)算,得

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。