資源描述:
《幾種信息檢索模型比較 》由會員上傳分享,免費在線閱讀,更多相關內容在應用文檔-天天文庫。
1、幾種信息檢索模型比較摘要:對信息檢索模型研究的主要內容和構建策略進行了描述,給出了幾種常用的信息檢索模型相關性算法,分析了它們的優(yōu)缺點,并就存在的問題進行了探討,總結了信息檢索模型的研究現(xiàn)狀和發(fā)展趨勢。關鍵詞:信息檢索模型;相關性;查詢;搜索引擎Abstract:Thisarticledescribedthemaincontentsandtheconstructionstrategyofthemodelsofinformationretrieval,demonstratedalotofmethodsinmonusages,odelofinformationretrieval.An
2、dinthisarticle,theadvantagesanddisadvantagessthatisstillexistinghavebeenresearched.Inaddition,thecurrentsituationofthisresearchandthedevelopmenttendencyofthemodelofinformationretrievalmarizadinthisarticle.Keyationretrievalmodels;Relativity;Inquiry;Searchengine當前,隨著互聯(lián)網(wǎng)的普及和網(wǎng)上信息的爆炸式增長,信息檢索系統(tǒng)及其核心
3、技術搜索引擎的性能和效率問題已成為人們研究和關注的焦點。影響一個搜索引擎系統(tǒng)的性能有很多因素,但最主要的是信息檢索模型,其研究內容包括文檔和查詢的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結果的排序方法和用戶進行相關度反饋的機制。本文從研究文檔與用戶查詢“相關性”匹配的角度出發(fā),對信息檢索模型研究的主要內容和構建策略進行了詳細的描述,并給出了幾種常用的信息檢索模型相關性算法,分析了它們的優(yōu)缺點及存在的問題,總結了當前信息檢索模型的研究現(xiàn)狀和發(fā)展趨勢,其目的在于提高信息檢索、查詢的性能和效率。一、構建信息檢索模型的策略當前,構建信息檢索模型的主要策略有以下兩個:(一)通用的
4、信息檢索模型構建一個通用的信息檢索模型,研究優(yōu)化的匹配算法,提高查詢速度、查全率和查準率,最大程度地滿足一般用戶的查詢需求。(二)用戶興趣模型根據(jù)特定用戶查詢興趣要求構建用戶興趣模型或共同興趣模型,能夠盡可能地滿足特殊用戶查詢的需求。它可以構建一個適合行業(yè)或專業(yè)應用語義要求信息獲取模型。如google就能推斷用戶的使用意圖,提供動態(tài)的、即時的用戶“個性化定制”信息,幫助用戶快速、準確地定位到所需要的信息。二、常用的信息檢索相關性算法(一)布爾模型布爾模型是基于特征項的嚴格匹配模型,文本查詢的匹配規(guī)則遵循布爾運算的法則。用戶可以根據(jù)檢索項在文檔中的布爾邏輯關系提交查詢,搜索引擎則根
5、據(jù)事先建立的倒排文件結構,確定查詢結果。標準的布爾邏輯模型為二元邏輯,所搜索的文檔要么與查詢相關,要么與查詢無關。查詢結果一般不進行相關性排序。在布爾模型中,一個文檔通過一個關鍵詞條的集合來表示,這些詞條都來自一個詞典。在查詢與文檔匹配的過程中,主要看該文檔中的詞條是否滿足查詢條件。布爾模型用文檔的檢索狀態(tài)值作為一種評價查詢和文檔相似性的一種方法。這里,首先定義關鍵詞集合S,關鍵詞為t1,t2,…,tn。這些關鍵詞可以和邏輯操作符AND,OR和NOT形成不同的條件查詢。如果得到條件表達式的值為True,該文檔相對于此條查詢的檢索狀態(tài)值為1;如果若干文檔相對于此條查詢的檢索狀態(tài)值都
6、為1,則可以認為,這些文檔與此用戶的查詢是相關的。布爾模型的主要優(yōu)點有兩點:一是實現(xiàn)起來比較容易,速度快,計算的代價相對較少。二是查詢語言表達簡單,用戶可以使用任意復雜的查詢表達式,易于表示同義關系(如:聾教育OR特殊教育)和詞組(如:計算機AND基礎AND課程改革)。它的缺點是,由于所有檢索到的與用戶查詢條件相關的文檔具有相同的檢索狀態(tài)值,則不能對查詢結果按照相關性進行排序;另外關鍵詞也沒有考慮權重的影響,缺乏定量分析和靈活性以及不能表述模糊匹配。而為了克服布爾型信息獲取模型查詢結果的無序性,在查詢結果處理中引進了模糊邏輯運算,將所檢索的數(shù)據(jù)庫文檔信息與用戶的查詢要求進行模糊邏
7、輯比較,按照相關的優(yōu)先次序排列查詢結果。(二)向量空間模型向量空間模型把信息庫中的文本以及用戶的查詢都表示成向量空間中的點(向量),用它們之間夾角的余弦作為相似性度量。向量空間模型是現(xiàn)在的文本檢索系統(tǒng)以及網(wǎng)絡搜索引擎的基礎。在向量空間模型中,信息檢索系統(tǒng)如果涉及n個關鍵詞Term,則建立n維的向量空間,每一維都代表不同的關鍵詞Term。首先要建立文本和用戶查詢的向量,一個n元組的文檔向量Di的每個坐標都通過對應關鍵字的權重來表示,查詢向量中的權重表示對應關鍵詞對于用戶來說的重要程