資源描述:
《經(jīng)典信息檢索模型的分類比較》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、軟件2011年第32卷第3期Software國(guó)際IT傳媒品牌經(jīng)典信息檢索模型的分類比較于 莉(天津市財(cái)貿(mào)管理干部學(xué)院,天津)摘 要:信息檢索的模型,主要是用于檢索和排序的計(jì)算用戶查詢請(qǐng)求和信息的匹配程度的問題。目前已有的檢索模型有布爾模型、向量模型、概率模型以及以上三個(gè)經(jīng)典模型的變形模型。通過對(duì)經(jīng)典模型進(jìn)行分析比較,以便在設(shè)計(jì)具體的檢索系統(tǒng)時(shí),根據(jù)檢索對(duì)象的特點(diǎn),采取合適的檢索模型,提高檢索效率。關(guān)鍵詞:信息檢索;經(jīng)典模型;擴(kuò)展模型中圖分類號(hào):TP31文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.3969/j.iss
2、n.1003-6970.2011.03.008ClassificationofClassicInformationRetrievalModelYULi(JournalofTianjinInstitueofFinancialandCommercialManagement)【Abstract】Informationretrievalmodel,isprimarilyusedtoretrieveandrankofaqueryandinformationthatmatchestheproblem.Atpre
3、senttherearethebooleanmodel,thevectorspacemodel,theprobabilisticmodelanddistortedmodeloftheabovethreeclassicmodels.Byanalysisoftheclassicalmodel,inordertoadoptsuitablemodeltoimprovetheretrievalefficiencywhendesigningspecificretrievalsystem.【Keywords】in
4、formationretrieval;classicinformationretrievalmodel;extendedmodel0 引言檢索結(jié)果的精確度并不是很高。為了提高檢索結(jié)果的準(zhǔn)確率,就需要預(yù)知文檔和檢索需求的相關(guān)度,這就依賴于對(duì)檢索結(jié)果信息檢索技術(shù)在許多領(lǐng)域中都有相應(yīng)的應(yīng)用,例如:Web中的文檔進(jìn)行排序的算法(rankingalgorithm)。不同的計(jì)算搜索引擎、圖形圖像檢索、視頻檢索、構(gòu)件檢索等。在這些領(lǐng)域文檔相關(guān)度的假設(shè)前提就會(huì)導(dǎo)致不同的信息檢索模型。由圖1中,采用的主要檢索模型都是
5、以信息檢索中的經(jīng)典模型為主??梢钥闯?,經(jīng)典信息檢索模型主要有三類:布爾模型、向量模型從數(shù)學(xué)理論角度來看,信息檢索模型可以分為集合論模型、代和概率模型。在經(jīng)典模型中,使用一組關(guān)鍵字(稱為索引術(shù)語)數(shù)論模型和概率論模型。其中,集合論模型以布爾模型為基本來描述每篇文檔。一般索引術(shù)語是一個(gè)名詞或名詞詞組。假設(shè)模型,加入集合論理論進(jìn)行擴(kuò)展;代數(shù)論模型是在向量模型的ki是一個(gè)索引術(shù)語,dj是集合中的一份文檔,則使用wi,j≥0說基礎(chǔ)上,添加特殊假設(shè)前提構(gòu)造不同的信息檢索模型;概率論明描述文檔dj的術(shù)語ki的重要
6、程度。用戶的信息需求Q也表模型以概率模型為基礎(chǔ),增加推理網(wǎng)或信任網(wǎng)理論。圖1顯示示成索引術(shù)語的集合。不同的檢索模型中,相似度函數(shù)sim(dj,了從數(shù)學(xué)理論角度對(duì)信息檢索模型進(jìn)行的分類。qi)是不同的。1 布爾模型布爾模型是基于集合論和布爾代數(shù)的檢索模型。因此,查詢請(qǐng)求表示為由not、and和or構(gòu)成的索引術(shù)語的布爾表達(dá)式,例如,[q=ka∧(kb∨kc)],它可以轉(zhuǎn)換為析取范式(DNF),并且,索引術(shù)語ki與文檔dj相關(guān)聯(lián)的權(quán)重是二元的,即wi,j∈{0,1}。對(duì)于布爾模型,索引術(shù)語權(quán)重的取值范圍為
7、wi,j∈{0,1}。?查詢請(qǐng)求q是一個(gè)傳統(tǒng)的布爾表達(dá)式,qdnf是查詢請(qǐng)求q的析圖1 從數(shù)學(xué)理論角度對(duì)信息檢索模型進(jìn)行的分類??取范式。此外,假設(shè)qcc代表qdnf的任意合取構(gòu)成因子。文檔dj在信息檢索中,信息對(duì)象和用戶的信息需求都是使用一組和查詢請(qǐng)求的相似度被定義為:索引術(shù)語集合標(biāo)識(shí)的。因此,存在信息丟失或遺失的現(xiàn)象,信息作者簡(jiǎn)介:于莉(1977-),天津市財(cái)貿(mào)管理干部學(xué)院講師,碩士學(xué)位.·?32?·軟件于莉:經(jīng)典信息檢索模型的分類比較果集的子集。概率模型中,索引術(shù)語的權(quán)重也都是二元的,即wi;
8、j∈0,1;在布爾模型中,如果sim(dj,q)=1,則表示文檔dj和查詢wi,q∈{0,1}。查詢請(qǐng)求q是一個(gè)索引術(shù)語的子集。假設(shè)R是請(qǐng)求q是相關(guān)的;否則,是不相關(guān)的。已知的相關(guān)的文檔的集合,R是R的補(bǔ)集(即不相關(guān)的文檔的?集合)。定義P(R
9、dj)為文檔dj和查詢請(qǐng)求q相關(guān)的概率,2 向量模型?P(R
10、dj)為dj和q不相關(guān)的概率。則文檔dj和查詢請(qǐng)求q由于二元權(quán)重并不能對(duì)檢索出來的文檔進(jìn)行相關(guān)度排序,的相似度為:?因此,需要使用非二元的權(quán)重計(jì)算文檔和查詢請(qǐng)求的相