資源描述:
《《信息檢索模型》PPT課件》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、信息檢索模型哈工大信息檢索研究室2007這一部分將講述布爾模型,向量空間模型,擴展的布爾模型概率模型和基于語言模型的信息檢索模型的區(qū)別和聯(lián)系基于本體的信息檢索模型和基于隱性語義索引的信息檢索模型信息檢索模型的概述什么是模型?模型是采用數(shù)學工具,對現(xiàn)實世界某種事物或某種運動的抽象描述面對相同的輸入,模型的輸出應能夠無限地逼近現(xiàn)實世界的輸出舉例:天氣的預測模型信息檢索模型給出了文檔的表示方法,查詢的表示方式以及查詢與文檔的匹配過程信息檢索模型信息檢索模型是一個四元組[D,Q,F,R(qi,dj)]D:文檔集的機內表示Q:用戶需求的機內表示F:文檔表示、查詢表示和它們之間的關系的模型框架(Fram
2、e)R(qi,dj):排序函數(shù),給queryqi和documentdj評分信息檢索模型取決于:從什么樣的視角去看待查詢式和文檔基于什么樣的理論去看待查詢式和文檔的關系如何計算查詢式和文檔之間的相似度模型分類信息檢索模型布爾向量空間概率知識模糊集擴展的布爾模型集合論代數(shù)擴展的向量空間隱性語義索引神經(jīng)網(wǎng)絡語言模型推理網(wǎng)絡信念網(wǎng)絡概率基于本體論的模型人工智能布爾模型(BooleanModel)布爾模型最早的IR模型,也是應用最廣泛的模型目前仍然應用于商業(yè)系統(tǒng)中Lucene是基于布爾(Boolean)模型的布爾模型描述文檔表示一個文檔被表示為關鍵詞的集合查詢式表示查詢式(Queries)被表示為關鍵
3、詞的布爾組合,用“與、或、非”連接起來,并用括弧指示優(yōu)先次序匹配一個文檔當且僅當它能夠滿足布爾查詢式時,才將其檢索出來檢索策略基于二值判定標準舉例Q=病毒AND(計算機OR電腦)ANDNOT醫(yī)文檔:D1:…據(jù)報道計算機病毒最近猖獗D2:小王雖然是學醫(yī)的,但對研究電腦病毒也感興趣…D3:計算機程序發(fā)現(xiàn)了艾滋病病毒傳播途徑上述文檔哪一個會被檢索到?優(yōu)點到目前為止,布爾模型是最常用的檢索模型,因為:由于查詢簡單,因此容易理解通過使用復雜的布爾表達式,可以很方便地控制查詢結果相當有效的實現(xiàn)方法相當于識別包含了一個某個特定term的文檔經(jīng)過某種訓練的用戶可以容易地寫出布爾查詢式布爾模型可以通過擴展來包
4、含排序的功能,即“擴展的布爾模型”問題布爾模型被認為是功能最弱的方式,其主要問題在于不支持部分匹配,而完全匹配會導致太多或者太少的結果文檔被返回非常剛性:“與”意味著全部;“或”意味著任何一個很難控制被檢索的文檔數(shù)量原則上講,所有被匹配的文檔都將被返回很難對輸出進行排序不考慮索引詞的權重,所有文檔都以相同的方式和查詢相匹配很難進行自動的相關反饋如果一篇文檔被用戶確認為相關或者不相關,怎樣相應地修改查詢式呢?向量空間模型模型的提出GerardSalton在上世紀60年代提出的向量空間模型進行特征表達成功應用于SMART(SystemfortheManipulationandRetrievalo
5、fText)文本檢索系統(tǒng)這一系統(tǒng)理論框架到現(xiàn)在仍然是信息檢索技術研究的基礎模型的描述文檔D(Document):泛指文檔或文檔中的一個片段(如文檔中的標題、摘要、正文等)。索引項t(Term):指出現(xiàn)在文檔中能夠代表文檔性質的基本語言單位(如字、詞等),也就是通常所指的檢索詞,這樣一個文檔D就可以表示為D(t1,t2,…,tn),其中n就代表了檢索字的數(shù)量。特征項權重Wk(TermWeight):指特征項tn能夠代表文檔D能力的大小,體現(xiàn)了特征項在文檔中的重要程度。相似度S(Similarity):指兩個文檔內容相關程度的大小模型的特點基于關鍵詞(一個文本由一個關鍵詞列表組成)根據(jù)關鍵詞的出
6、現(xiàn)頻率計算相似度例如:文檔的統(tǒng)計特性用戶規(guī)定一個詞項(term)集合,可以給每個詞項附加權重未加權的詞項:Q=?database;text;information?加權的詞項:Q=?database0.5;text0.8;information0.2?查詢式中沒有布爾條件根據(jù)相似度對輸出結果進行排序支持自動的相關反饋有用的詞項被添加到原始的查詢式中例如:Q??database;text;information;document?模型中的問題怎樣確定文檔中哪些詞是重要的詞?(索引項)怎樣確定一個詞在某個文檔中或在整個文檔集中的重要程度?(權重)怎樣確定一個文檔和一個查詢式之間的相似度?索引項的
7、選擇若干獨立的詞項被選作索引項(indexterms)or詞表vocabulary索引項代表了一個應用中的重要詞項計算機科學圖書館中的索引項應該是哪些呢?體系結構總線計算機數(shù)據(jù)庫….XML計算機科學文檔集文檔集中的索引項索引項的選擇這些索引項是不相關的(或者說是正交的),形成一個向量空間vectorspace實際上,這些詞項是相互關聯(lián)的當你在一個文檔中看到“計算機”,非常有可能同時看到“科學”當你在一個文檔中