經(jīng)典信息檢索模型的分類比較

ID：5386271

大?。?.05 MB

頁數(shù)：3頁

時(shí)間：2017-12-08

資源描述：

《經(jīng)典信息檢索模型的分類比較》由會(huì)員上傳分享，免費(fèi)在線閱讀，更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、軟件2011年第32卷第3期Software國(guó)際IT傳媒品牌經(jīng)典信息檢索模型的分類比較于　莉（天津市財(cái)貿(mào)管理干部學(xué)院，天津）摘　要：信息檢索的模型，主要是用于檢索和排序的計(jì)算用戶查詢請(qǐng)求和信息的匹配程度的問題。目前已有的檢索模型有布爾模型、向量模型、概率模型以及以上三個(gè)經(jīng)典模型的變形模型。通過對(duì)經(jīng)典模型進(jìn)行分析比較，以便在設(shè)計(jì)具體的檢索系統(tǒng)時(shí)，根據(jù)檢索對(duì)象的特點(diǎn)，采取合適的檢索模型，提高檢索效率。關(guān)鍵詞：信息檢索；經(jīng)典模型；擴(kuò)展模型中圖分類號(hào)：TP31文獻(xiàn)標(biāo)識(shí)碼：Adoi:10.3969/j.iss

2、n.1003-6970.2011.03.008ClassificationofClassicInformationRetrievalModelYULi(JournalofTianjinInstitueofFinancialandCommercialManagement)【Abstract】Informationretrievalmodel,isprimarilyusedtoretrieveandrankofaqueryandinformationthatmatchestheproblem.Atpre

3、senttherearethebooleanmodel,thevectorspacemodel,theprobabilisticmodelanddistortedmodeloftheabovethreeclassicmodels.Byanalysisoftheclassicalmodel,inordertoadoptsuitablemodeltoimprovetheretrievalefficiencywhendesigningspecificretrievalsystem.【Keywords】in

4、formationretrieval;classicinformationretrievalmodel;extendedmodel0　引言檢索結(jié)果的精確度并不是很高。為了提高檢索結(jié)果的準(zhǔn)確率，就需要預(yù)知文檔和檢索需求的相關(guān)度，這就依賴于對(duì)檢索結(jié)果信息檢索技術(shù)在許多領(lǐng)域中都有相應(yīng)的應(yīng)用，例如：Web中的文檔進(jìn)行排序的算法（rankingalgorithm）。不同的計(jì)算搜索引擎、圖形圖像檢索、視頻檢索、構(gòu)件檢索等。在這些領(lǐng)域文檔相關(guān)度的假設(shè)前提就會(huì)導(dǎo)致不同的信息檢索模型。由圖1中，采用的主要檢索模型都是

5、以信息檢索中的經(jīng)典模型為主?？梢钥闯?，經(jīng)典信息檢索模型主要有三類：布爾模型、向量模型從數(shù)學(xué)理論角度來看，信息檢索模型可以分為集合論模型、代和概率模型。在經(jīng)典模型中，使用一組關(guān)鍵字（稱為索引術(shù)語）數(shù)論模型和概率論模型。其中，集合論模型以布爾模型為基本來描述每篇文檔。一般索引術(shù)語是一個(gè)名詞或名詞詞組。假設(shè)模型，加入集合論理論進(jìn)行擴(kuò)展；代數(shù)論模型是在向量模型的ki是一個(gè)索引術(shù)語，dj是集合中的一份文檔，則使用wi,j≥0說基礎(chǔ)上，添加特殊假設(shè)前提構(gòu)造不同的信息檢索模型；概率論明描述文檔dj的術(shù)語ki的重要

6、程度。用戶的信息需求Q也表模型以概率模型為基礎(chǔ)，增加推理網(wǎng)或信任網(wǎng)理論。圖1顯示示成索引術(shù)語的集合。不同的檢索模型中，相似度函數(shù)sim(dj,了從數(shù)學(xué)理論角度對(duì)信息檢索模型進(jìn)行的分類。qi）是不同的。1　布爾模型布爾模型是基于集合論和布爾代數(shù)的檢索模型。因此，查詢請(qǐng)求表示為由not、and和or構(gòu)成的索引術(shù)語的布爾表達(dá)式，例如，[q=ka∧(kb∨kc)]，它可以轉(zhuǎn)換為析取范式（DNF），并且，索引術(shù)語ki與文檔dj相關(guān)聯(lián)的權(quán)重是二元的，即wi,j∈{0,1}。對(duì)于布爾模型，索引術(shù)語權(quán)重的取值范圍為

7、wi,j∈{0,1}。?查詢請(qǐng)求q是一個(gè)傳統(tǒng)的布爾表達(dá)式，qdnf是查詢請(qǐng)求q的析圖1　從數(shù)學(xué)理論角度對(duì)信息檢索模型進(jìn)行的分類??取范式。此外，假設(shè)qcc代表qdnf的任意合取構(gòu)成因子。文檔dj在信息檢索中，信息對(duì)象和用戶的信息需求都是使用一組和查詢請(qǐng)求的相似度被定義為：索引術(shù)語集合標(biāo)識(shí)的。因此，存在信息丟失或遺失的現(xiàn)象，信息作者簡(jiǎn)介：于莉（1977-），天津市財(cái)貿(mào)管理干部學(xué)院講師，碩士學(xué)位.·?32?·軟件于莉：經(jīng)典信息檢索模型的分類比較果集的子集。概率模型中，索引術(shù)語的權(quán)重也都是二元的，即wi;

8、j∈0,1;在布爾模型中，如果sim(dj,q)=1，則表示文檔dj和查詢wi,q∈{0,1}。查詢請(qǐng)求q是一個(gè)索引術(shù)語的子集。假設(shè)R是請(qǐng)求q是相關(guān)的；否則，是不相關(guān)的。已知的相關(guān)的文檔的集合，R是R的補(bǔ)集（即不相關(guān)的文檔的?集合）。定義P(R

9、dj)為文檔dj和查詢請(qǐng)求q相關(guān)的概率，2　向量模型?P(R

10、dj)為dj和q不相關(guān)的概率。則文檔dj和查詢請(qǐng)求q由于二元權(quán)重并不能對(duì)檢索出來的文檔進(jìn)行相關(guān)度排序，的相似度為：?因此，需要使用非二元的權(quán)重計(jì)算文檔和查詢請(qǐng)求的相

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

侵權(quán)申訴



1 1 2 3 / 3



此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁，下載文檔查看全文

版權(quán)提示
下載文檔

溫馨提示：
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件，查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常，文件下載后無此問題，請(qǐng)放心下載。
2. 本文檔由用戶上傳，版權(quán)歸屬用戶，天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容，確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載，若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤，付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。

經(jīng)典信息檢索模型的分類比較

經(jīng)典信息檢索模型的分類比較

相關(guān)文章

相關(guān)標(biāo)簽