《信息檢索理論模型》PPT課件.ppt

《信息檢索理論模型》PPT課件.ppt

ID:52070878

大小:256.50 KB

頁數(shù):59頁

時(shí)間:2020-03-31

《信息檢索理論模型》PPT課件.ppt_第1頁
《信息檢索理論模型》PPT課件.ppt_第2頁
《信息檢索理論模型》PPT課件.ppt_第3頁
《信息檢索理論模型》PPT課件.ppt_第4頁
《信息檢索理論模型》PPT課件.ppt_第5頁
資源描述:

《《信息檢索理論模型》PPT課件.ppt》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、第2章信息檢索理論模型8/25/20211信息檢索過程信息檢索過程實(shí)際上涉及到三個(gè)重要的處理:文檔集的邏輯表示查詢的表示相似匹配及其排序?qū)ι鲜鲆蛩睾蜋z索過程建模(抽象描述),產(chǎn)生各種不同的信息檢索模型8/25/20212信息檢索模型分類信息檢索模型檢索模型瀏覽模型內(nèi)容模型結(jié)構(gòu)模型布爾模型矢量模型概率模型非重疊鏈表模型鄰近節(jié)點(diǎn)模型平坦模型結(jié)構(gòu)導(dǎo)向模型超文本模型邏輯模型8/25/20213本章主要內(nèi)容2.1布爾檢索模型2.2向量空間模型2.3概率檢索模型2.4信息檢索邏輯模型8/25/202142.1布爾檢索模型布爾檢索模型的理論基

2、礎(chǔ)是布爾邏輯和集合理論8/25/202152.1布爾檢索模型布爾邏輯主要內(nèi)容:命題邏輯與謂詞邏輯布爾邏輯是數(shù)理邏輯的基礎(chǔ)部分利用符號(hào)來表示邏輯中的各種概念建立了一系列的運(yùn)算法則,利用代數(shù)的方法研究邏輯問題8/25/20216布爾運(yùn)算布爾邏輯運(yùn)算符:“與(AND)”、“或(OR)”、“非(NOT)”運(yùn)算的定義8/25/20217傳統(tǒng)布爾檢索模型文獻(xiàn)表示將文檔表示成一個(gè)集合,集合中的每個(gè)元素都為一個(gè)二元變量,取值非“0”即“1”,表示該元素所代表的主題詞是否包含在該篇文檔之內(nèi)。若包括在文檔中,則元素取值為1,反之則取0。給定一個(gè)文獻(xiàn)

3、集合D,包含m篇文獻(xiàn),分別用d1,d2,d3……dm表示。再給出一個(gè)標(biāo)引詞集合T,包含n個(gè)標(biāo)引詞t1,t2,……,tn。假定對(duì)文獻(xiàn)集D的描述完全是基于該標(biāo)引詞集合的,則文獻(xiàn)集D中任意一篇文獻(xiàn)di就可以表示為(di1,di2,……,din)8/25/20218傳統(tǒng)布爾檢索模型查詢表示在布爾檢索系統(tǒng)中,根據(jù)用戶提出的檢索需求,選取適當(dāng)?shù)臋z索標(biāo)識(shí),與布爾運(yùn)算符“與”、“或”、“非”共同構(gòu)成與查詢相符的檢索提問式,也即相應(yīng)的布爾表達(dá)式例如,布爾提問式q=t1and(t2ornott3)q的主析取范式(t1andt2andt3)or(t1

4、andt2andnott3)or(t1andnott2andnott3)q的簡(jiǎn)化形式qdnf(1,1,1)or(1,1,0)or(1,0,0),其中,(1,1,1)、(1,1,0)和(1,0,0)是qdnf的3個(gè)合取子項(xiàng)(合取子項(xiàng)可用符號(hào)qcc表示)8/25/20219傳統(tǒng)布爾檢索模型匹配函數(shù)8/25/202110傳統(tǒng)布爾檢索模型文獻(xiàn)D1=(t1,t2,nott3)查詢Q=t1andt2andnott38/25/202111傳統(tǒng)布爾查詢的評(píng)價(jià)該模型結(jié)構(gòu)簡(jiǎn)單、容易實(shí)現(xiàn)和快速檢索。8/25/202112傳統(tǒng)布爾查詢的評(píng)價(jià)布爾模型在檢

5、索系統(tǒng)的開發(fā)與應(yīng)用中表現(xiàn)出的主要問題有:(1)準(zhǔn)確匹配(exactmatching)策略問題。布爾模型采用準(zhǔn)確匹配策略,對(duì)檢索過程中客觀存在的一些不確定性情形絕對(duì)排斥,認(rèn)為一篇文獻(xiàn)對(duì)于某一提問要么是“相關(guān)的”,要么是“不相關(guān)的”。這種“非此即彼”的二值判斷標(biāo)準(zhǔn)嚴(yán)重影響到檢索系統(tǒng)的性能改善,并帶來其他一些相關(guān)問題。(2)布爾邏輯表達(dá)用戶需求的能力問題。把用戶的一個(gè)信息需求轉(zhuǎn)換成一個(gè)恰當(dāng)?shù)牟紶柋磉_(dá)式,在很多情況下并不容易實(shí)現(xiàn)。8/25/202113傳統(tǒng)布爾查詢的評(píng)價(jià)為了彌補(bǔ)這些缺陷,發(fā)展了一些別的檢索模型,如向量空間、擴(kuò)展布爾、概率

6、檢索和聚類模型。8/25/2021142.2向量空間模型2.2.1傳統(tǒng)向量空間檢索2.2.2項(xiàng)的權(quán)重模式2.2.3相似度的計(jì)算2.2.4潛在語義標(biāo)引8/25/2021152.2.1傳統(tǒng)向量空間檢索向量空間模型(Vectorspacemodel)介紹向量空間模型(VSM)的評(píng)價(jià)8/25/202116向量空間模型介紹1.文獻(xiàn)空間(1)文獻(xiàn)空間的概念文獻(xiàn)集合中的任一文獻(xiàn)都可以表示為這個(gè)多維空間中的一個(gè)向量,這個(gè)空間就稱為“文獻(xiàn)空間”在一個(gè)文獻(xiàn)空間內(nèi),用向量D1來代表某一文獻(xiàn),則該向量在這個(gè)文獻(xiàn)空間各個(gè)軸上的分量就是相應(yīng)的表述該文獻(xiàn)的各

7、個(gè)項(xiàng)的權(quán)重文獻(xiàn)與空間點(diǎn)(2)標(biāo)引詞空間8/25/202117向量空間模型介紹T2T3T1D1={d11,d12,d13}D2={d21,d22,d23}D3={d31,d32,d33}圖三維文獻(xiàn)空間8/25/202118向量空間模型介紹2.項(xiàng)權(quán)重(1)詞頻越重要的項(xiàng)分配越高的權(quán)值可以用詞頻來作為該項(xiàng)的權(quán)重(用tf表示)(2)文獻(xiàn)頻率假設(shè)存在一個(gè)文獻(xiàn)集合,其中大部分的文獻(xiàn)都包含了某一項(xiàng),則說明該項(xiàng)對(duì)某一主題的專指度較差,可能就不太重要在設(shè)計(jì)項(xiàng)權(quán)重時(shí),要考慮逆文獻(xiàn)頻率(用idf表示)8/25/202119向量空間模型介紹2.項(xiàng)權(quán)重(

8、3)權(quán)重的規(guī)范化處理為了抵消由篇幅帶來的不同影響,經(jīng)常要對(duì)項(xiàng)權(quán)重進(jìn)行規(guī)范化處理在各種規(guī)范化方法中,余弦規(guī)范是一種常用、有效的方法:tf×idf權(quán)重/文獻(xiàn)向量的歐氏長(zhǎng)度8/25/202120向量空間模型介紹3.文獻(xiàn)向量與查詢向量的匹配匹配函數(shù)利用向量的內(nèi)積運(yùn)算,得

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。