資源描述:
《《信息檢索模型》PPT課件》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、信息檢索信息檢索(informationretrieval,IR),將信息按一定的方式組織和存儲起來,并根據(jù)用戶的需要找出有關(guān)信息的過程。發(fā)展的幾個階段手工檢索(早期,情報檢索)穿孔卡片檢索(1950s)計算機檢索(面向主題,1960s)聯(lián)機檢索(1970s,1980s)Web檢索(1990s)Adhocretrieval(特別檢索:文檔集合保持不變)Collection“FixedSize”Q2Q3Q1Q4Q5IR的兩種形式:AdHocandFilteringFiltering(過濾:用戶需求不變)DocumentsStreamUser1ProfileUser2ProfileDocsFil
2、teredforUser2DocsforUser1IR的兩種形式:AdHocandFiltering相關(guān)概念停用詞(stopword),指文檔中出現(xiàn)的連詞,介詞,冠詞等并無太大意義的詞。例如在英文中常用的停用詞有the,a,it等;在中文中常見的有“是”,“的”,“地”等。索引詞(標(biāo)引詞,關(guān)鍵祠):可以用于指代文檔內(nèi)容的預(yù)選詞語,一般為名詞或名詞詞組.詞干提?。ㄓ⑽闹校ヽountries=>country,interesting=>interest組合詞:北京大學(xué)中文分詞(wordsegmentation),或稱切詞,主要在中文信息處理中使用,即把一句話分成一個詞的序列。如,“網(wǎng)絡(luò)與分布式系
3、統(tǒng)實驗室”,分詞為“網(wǎng)絡(luò)/與/分布式/系統(tǒng)/實驗室/”。信息檢索模型信息檢索模型的概述信息檢索模型信息檢索模型(IRmodel),依照用戶查詢,對文檔集合進行相關(guān)排序的一組前提假設(shè)和算法。IR模型可形式地表示為一個四元組其中D是一個文檔集合,Q是一個查詢集合,F(xiàn)是一個對文檔和查詢建模的框架,R(qi,dj)是一個排序函數(shù),它給查詢qi和文檔dj之間的相關(guān)度賦予一個排序值文檔邏輯視圖D是一個文檔集合,通常由文檔邏輯視圖來表示。文檔邏輯視圖可以是一組索引詞或關(guān)鍵詞。也可以用n-gram方式表示。既可以自動提取,也可以是由人主觀指定。(從全文到一組標(biāo)引詞)信息檢索模
4、型Q是一個查詢集合,用戶任務(wù)的表達,由查詢需求的邏輯視圖來表示。F是一個框架,用以構(gòu)建文檔,查詢以及它們之間關(guān)系的模型R(qi,dj)是一個排序函數(shù),它給查詢qi和文檔dj之間的相關(guān)度賦予一個排序值即:IR模型由上述四個要素組成信息檢索模型的分類三類:基于內(nèi)容的信息檢索模型,結(jié)構(gòu)化模型,瀏覽型檢索模型.基于內(nèi)容的信息檢索模型有集合論模型:布爾模型、模糊集合模型、擴展布爾模型代數(shù)模型:向量空間模型、廣義向量空間模型、潛在語義標(biāo)引模型、神經(jīng)網(wǎng)絡(luò)模型概率模型:經(jīng)典概率論模型、推理網(wǎng)絡(luò)模型、置信(信念)網(wǎng)絡(luò)模型非重疊鏈表模型鄰近結(jié)點模型結(jié)構(gòu)化模型檢索:特別檢索過濾瀏覽
5、用戶任務(wù)經(jīng)典模型布爾模型向量模型概率模型集合論模型模糊集合論模型可擴展布爾模型概率模型推理網(wǎng)絡(luò)模型信任度網(wǎng)絡(luò)模型代數(shù)模型廣義向量模型潛語義標(biāo)引模型神經(jīng)網(wǎng)絡(luò)模型瀏覽扁平式模型結(jié)構(gòu)導(dǎo)向模型超文本模型信息檢索模型的分類經(jīng)典信息檢索模型布爾模型向量空間模型經(jīng)典概率模型經(jīng)典信息檢索模型經(jīng)典的信息檢索模型有三個:布爾模型、向量模型和概率模型。每篇文檔可以用一組有代表性的關(guān)鍵詞即索引詞集合來描述。索引詞是文檔中的詞,其語義可以幫助理解文檔的主題;因此,索引詞常用于編制索引和概括文檔的內(nèi)容。索引詞通常由名詞構(gòu)成,因為名詞本身具有語義,人們能夠比較容易地理解它的意思。形容詞、副詞、連詞很少作為索引詞,因為它們
6、主要起補充作用,不能單獨表示語義。布爾模型(BooleanModel)布爾檢索模型一種簡單的檢索模型,它建立在經(jīng)典的集合論和布爾代數(shù)的基礎(chǔ)上。遵循兩條基本規(guī)則:每個索引詞在一篇文檔中只有兩種狀態(tài):出現(xiàn)或不出現(xiàn),對應(yīng)權(quán)值為0或1。查詢是由三種布爾邏輯運算符and,or,not連接索引詞組成的布爾表達式。根據(jù)布爾邏輯的運算規(guī)定,提問式q可以被表示成由合取子項(conjunctivecomponent)組成的析取范式(disjunctivenormalform,簡稱DNF)形式。離散數(shù)學(xué)相關(guān)概念用連詞∧把幾個公式連接起來而構(gòu)成的公式叫做合取,而此合取式的每個組成部分叫做合取項。p并且q,記作“p∧
7、q”用連詞∨把幾個公式連接起來所構(gòu)成的公式叫做析取,而此析取式的每一組成部分叫做析取項。p或q,記作“p∨q”非p┐p離散數(shù)學(xué)相關(guān)概念析取范式:僅由有限個簡單合取式構(gòu)成的析取式A=(p∧┐q∧r)∨(┐p∧q)∨(q∧┐q)合取范式:僅由有限個簡單析取式構(gòu)成的合取式A=(p∨┐q∨r)∧(┐p∨q)∧(q∨┐q)范式存在定理任一命題公式都存在著與之等值的析取范式和合取范式離散數(shù)學(xué)相關(guān)概念主析取范式極小項在