資源描述:
《信息檢索模型的概述.pdf》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、提綱¢信息檢索模型的概述¢布爾模型¢向量空間模型(VSM)¢擴(kuò)展的布爾模型¢潛在語義索引模型(LSI)¢概率模型¢基于統(tǒng)計(jì)語言模型的信息檢索模型¢基于本體論的信息檢索模型信息檢索模型的概述什么是模型?¢模型是采用數(shù)學(xué)工具,對現(xiàn)實(shí)世界某種事物或某種運(yùn)動的抽象描述¢面對相同的輸入,模型的輸出應(yīng)能夠無限地逼近現(xiàn)實(shí)世界的輸出¢舉例:天氣的預(yù)測模型¢模型和實(shí)現(xiàn)的區(qū)別¢一個模型可以用多種方法實(shí)現(xiàn)¢例如:布爾模型可以用倒排文檔(invertedfile)實(shí)現(xiàn),也可以用B-tree實(shí)現(xiàn)信息檢索模型¢四元組[D,Q,F,R(q
2、i,dj)]¢D:文檔集的機(jī)內(nèi)表示¢Q:用戶需求的機(jī)內(nèi)表示¢F:文檔表示、查詢表示和它們之間的關(guān)系的模型框架(Frame)¢R(qi,dj):給queryqi和documentdj評分¢信息檢索模型決定于:¢從什么樣的視角去看待查詢式和文檔¢基于什么樣的理論去看待查詢式和文檔的關(guān)系¢如何計(jì)算查詢式和文檔之間的相似度模型分類集合論模糊集擴(kuò)展的布爾模型信息檢索模型代數(shù)布爾向量空間擴(kuò)展的向量空間概率隱性語義索引知識神經(jīng)網(wǎng)絡(luò)概率人工智能語言模型基于本體論的模型推理網(wǎng)絡(luò)信念網(wǎng)絡(luò)布爾模型(BooleanModel)布爾模
3、型¢文檔表示¢一個文檔被表示為關(guān)鍵詞的集合¢查詢式表示¢查詢式(Queries)被表示為關(guān)鍵詞的布爾組合,用“與或非”連接起來,并用括弧指示優(yōu)先次序¢匹配¢一個文檔當(dāng)且僅當(dāng)它能夠滿足布爾查詢式時,才將其檢索出來¢不同的系統(tǒng)可以使用:¢不同的去除停用詞(stopwordremoval)策略和stemming策略¢索引中不同類型的輔助信息¢不同的實(shí)現(xiàn)方法強(qiáng)調(diào)¢到目前為止,布爾模型是最常用的檢索模型,因?yàn)椋骸橛捎诓樵兒唵?,因此容易理解¢通過使用復(fù)雜的布爾表達(dá)式,可以很方便地控制查詢結(jié)果¢相當(dāng)有效的實(shí)現(xiàn)方法¢相當(dāng)于識
4、別包含了一個某個特定term的文檔¢經(jīng)過某種訓(xùn)練的用戶可以容易地寫出布爾查詢式¢布爾模型可以通過擴(kuò)展來包含排序的功能,即“擴(kuò)展的布爾模型”問題¢布爾模型被認(rèn)為是功能最弱的方式,其主要問題在于不支持部分匹配,而完全匹配會導(dǎo)致太多或者太少的結(jié)果文檔被返回¢非常剛性:“與”意味著全部;“或”意味著任何一個¢如果“我想要n個詞中m個詞同時出現(xiàn)的文檔”,怎么表示?¢不可能企望用戶自己規(guī)定m值¢系統(tǒng)可以從m=n開始,然后逐漸減少m,但很麻煩¢很難表示用戶復(fù)雜的需求¢很難控制被檢索的文檔數(shù)量¢原則上講,所有被匹配的文檔都將
5、被返回¢很難對輸出進(jìn)行排序¢不考慮索引詞的權(quán)重,所有文檔都以相同的方式和查詢相匹配¢很難進(jìn)行自動的相關(guān)反饋¢如果一篇文檔被用戶確認(rèn)為相關(guān)或者不相關(guān),怎樣相應(yīng)地修改查詢式呢?向量空間模型統(tǒng)計(jì)模型¢基于關(guān)鍵詞(一個文本由一個關(guān)鍵詞列表組成)¢根據(jù)關(guān)鍵詞的出現(xiàn)頻率計(jì)算相似度¢例如:文檔的統(tǒng)計(jì)特性¢用戶規(guī)定一個詞項(xiàng)(term)集合,可以給每個詞項(xiàng)附加權(quán)重¢未加權(quán)的詞項(xiàng):Q=?database;text;information?¢加權(quán)的詞項(xiàng):Q=?database0.5;text0.8;information0.2?¢
6、查詢式中沒有布爾條件¢根據(jù)相似度對輸出結(jié)果進(jìn)行排序¢支持自動的相關(guān)反饋¢有用的詞項(xiàng)被添加到原始的查詢式中¢例如:Q??database;text;information;document?統(tǒng)計(jì)模型中的問題¢怎樣確定文檔中哪些詞是重要的詞?¢怎樣確定一個詞在某個文檔中或在整個文檔集中的重要程度?¢怎樣確定一個文檔和一個查詢式之間的相似度?¢在WWW中,什么是文檔集(collection),鏈接、文檔結(jié)構(gòu)以及其它形式特征(如字體、顏色等)對統(tǒng)計(jì)模型有何影響?向量空間模型¢若干獨(dú)立的詞項(xiàng)被選作索引項(xiàng)(indexte
7、rms)or詞表vocabulary¢索引項(xiàng)代表了一個應(yīng)用中的重要詞項(xiàng)¢計(jì)算機(jī)科學(xué)圖書館中的索引項(xiàng)應(yīng)該是哪些呢?體系結(jié)構(gòu)總線計(jì)算機(jī)數(shù)據(jù)庫….XML計(jì)算機(jī)科學(xué)文檔集文檔集中的索引項(xiàng)向量空間模型¢這些索引項(xiàng)是不相關(guān)的un-correlated(或者說是正交的orthogonal),形成一個向量空間vectorspace“計(jì)算機(jī)”“科學(xué)”“商務(wù)”計(jì)算機(jī)科學(xué)文檔集該文檔集中的全部重要詞項(xiàng)向量空間模型¢實(shí)際上,這些詞項(xiàng)是相互關(guān)聯(lián)的¢當(dāng)你在一個文檔中看到“計(jì)算機(jī)”,非常有可能同時看到“科學(xué)”¢當(dāng)你在一個文檔中看到“計(jì)算機(jī)
8、”,有中等的可能性同時看到“商務(wù)”¢當(dāng)你在一個文檔中看到“商務(wù)”,只有很少的機(jī)會同時看到“科學(xué)”向量空間模型¢2個索引項(xiàng)構(gòu)成一個二維空間,一個文檔可能包含0,1或2個索引項(xiàng)¢d=?0,0?(一個索引項(xiàng)也不包含)i¢d=?0,0.7?(包含其中一個索引項(xiàng))j¢d=?1,2?(包含兩個索引項(xiàng))k¢類似的,3個索引項(xiàng)構(gòu)成一個三維空間,n個索引項(xiàng)構(gòu)成n維空間¢一個文檔或查詢式可以表示為n個元素的線性組合圖示