經(jīng)典信息檢索模型的分類比較

經(jīng)典信息檢索模型的分類比較

ID:5386271

大?。?.05 MB

頁數(shù):3頁

時(shí)間:2017-12-08

經(jīng)典信息檢索模型的分類比較_第1頁
經(jīng)典信息檢索模型的分類比較_第2頁
經(jīng)典信息檢索模型的分類比較_第3頁
資源描述:

《經(jīng)典信息檢索模型的分類比較》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、軟件2011年第32卷第3期Software國(guó)際IT傳媒品牌經(jīng)典信息檢索模型的分類比較于 莉(天津市財(cái)貿(mào)管理干部學(xué)院,天津)摘 要:信息檢索的模型,主要是用于檢索和排序的計(jì)算用戶查詢請(qǐng)求和信息的匹配程度的問題。目前已有的檢索模型有布爾模型、向量模型、概率模型以及以上三個(gè)經(jīng)典模型的變形模型。通過對(duì)經(jīng)典模型進(jìn)行分析比較,以便在設(shè)計(jì)具體的檢索系統(tǒng)時(shí),根據(jù)檢索對(duì)象的特點(diǎn),采取合適的檢索模型,提高檢索效率。關(guān)鍵詞:信息檢索;經(jīng)典模型;擴(kuò)展模型中圖分類號(hào):TP31文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.3969/j.iss

2、n.1003-6970.2011.03.008ClassificationofClassicInformationRetrievalModelYULi(JournalofTianjinInstitueofFinancialandCommercialManagement)【Abstract】Informationretrievalmodel,isprimarilyusedtoretrieveandrankofaqueryandinformationthatmatchestheproblem.Atpre

3、senttherearethebooleanmodel,thevectorspacemodel,theprobabilisticmodelanddistortedmodeloftheabovethreeclassicmodels.Byanalysisoftheclassicalmodel,inordertoadoptsuitablemodeltoimprovetheretrievalefficiencywhendesigningspecificretrievalsystem.【Keywords】in

4、formationretrieval;classicinformationretrievalmodel;extendedmodel0 引言檢索結(jié)果的精確度并不是很高。為了提高檢索結(jié)果的準(zhǔn)確率,就需要預(yù)知文檔和檢索需求的相關(guān)度,這就依賴于對(duì)檢索結(jié)果信息檢索技術(shù)在許多領(lǐng)域中都有相應(yīng)的應(yīng)用,例如:Web中的文檔進(jìn)行排序的算法(rankingalgorithm)。不同的計(jì)算搜索引擎、圖形圖像檢索、視頻檢索、構(gòu)件檢索等。在這些領(lǐng)域文檔相關(guān)度的假設(shè)前提就會(huì)導(dǎo)致不同的信息檢索模型。由圖1中,采用的主要檢索模型都是

5、以信息檢索中的經(jīng)典模型為主??梢钥闯?,經(jīng)典信息檢索模型主要有三類:布爾模型、向量模型從數(shù)學(xué)理論角度來看,信息檢索模型可以分為集合論模型、代和概率模型。在經(jīng)典模型中,使用一組關(guān)鍵字(稱為索引術(shù)語)數(shù)論模型和概率論模型。其中,集合論模型以布爾模型為基本來描述每篇文檔。一般索引術(shù)語是一個(gè)名詞或名詞詞組。假設(shè)模型,加入集合論理論進(jìn)行擴(kuò)展;代數(shù)論模型是在向量模型的ki是一個(gè)索引術(shù)語,dj是集合中的一份文檔,則使用wi,j≥0說基礎(chǔ)上,添加特殊假設(shè)前提構(gòu)造不同的信息檢索模型;概率論明描述文檔dj的術(shù)語ki的重要

6、程度。用戶的信息需求Q也表模型以概率模型為基礎(chǔ),增加推理網(wǎng)或信任網(wǎng)理論。圖1顯示示成索引術(shù)語的集合。不同的檢索模型中,相似度函數(shù)sim(dj,了從數(shù)學(xué)理論角度對(duì)信息檢索模型進(jìn)行的分類。qi)是不同的。1 布爾模型布爾模型是基于集合論和布爾代數(shù)的檢索模型。因此,查詢請(qǐng)求表示為由not、and和or構(gòu)成的索引術(shù)語的布爾表達(dá)式,例如,[q=ka∧(kb∨kc)],它可以轉(zhuǎn)換為析取范式(DNF),并且,索引術(shù)語ki與文檔dj相關(guān)聯(lián)的權(quán)重是二元的,即wi,j∈{0,1}。對(duì)于布爾模型,索引術(shù)語權(quán)重的取值范圍為

7、wi,j∈{0,1}。?查詢請(qǐng)求q是一個(gè)傳統(tǒng)的布爾表達(dá)式,qdnf是查詢請(qǐng)求q的析圖1 從數(shù)學(xué)理論角度對(duì)信息檢索模型進(jìn)行的分類??取范式。此外,假設(shè)qcc代表qdnf的任意合取構(gòu)成因子。文檔dj在信息檢索中,信息對(duì)象和用戶的信息需求都是使用一組和查詢請(qǐng)求的相似度被定義為:索引術(shù)語集合標(biāo)識(shí)的。因此,存在信息丟失或遺失的現(xiàn)象,信息作者簡(jiǎn)介:于莉(1977-),天津市財(cái)貿(mào)管理干部學(xué)院講師,碩士學(xué)位.·?32?·軟件于莉:經(jīng)典信息檢索模型的分類比較果集的子集。概率模型中,索引術(shù)語的權(quán)重也都是二元的,即wi;

8、j∈0,1;在布爾模型中,如果sim(dj,q)=1,則表示文檔dj和查詢wi,q∈{0,1}。查詢請(qǐng)求q是一個(gè)索引術(shù)語的子集。假設(shè)R是請(qǐng)求q是相關(guān)的;否則,是不相關(guān)的。已知的相關(guān)的文檔的集合,R是R的補(bǔ)集(即不相關(guān)的文檔的?集合)。定義P(R

9、dj)為文檔dj和查詢請(qǐng)求q相關(guān)的概率,2 向量模型?P(R

10、dj)為dj和q不相關(guān)的概率。則文檔dj和查詢請(qǐng)求q由于二元權(quán)重并不能對(duì)檢索出來的文檔進(jìn)行相關(guān)度排序,的相似度為:?因此,需要使用非二元的權(quán)重計(jì)算文檔和查詢請(qǐng)求的相

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。