資源描述:
《元搜索引擎中檢索結(jié)果排序的優(yōu)化方法_文坤梅》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、DOI:10.13245/j.hust.2003.03.017第31卷第3期 華 中 科 技 大 學(xué) 學(xué) 報(自然科學(xué)版) Vol.31 No.32003年 3月 J.HuazhongUniv.ofSci.&Tech.(NatureScienceEdition) Mar. 2003元搜索引擎中檢索結(jié)果排序的優(yōu)化方法文坤梅 盧正鼎 鄧 曦 陳 莉(華中科技大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院)摘要:提出了一種新的基于概率模型的排序優(yōu)化方法.利用貝葉斯規(guī)則,結(jié)合各組成系統(tǒng)平均執(zhí)行性能的信息,推導(dǎo)出一種新的相關(guān)度計算公式,較好地解決了結(jié)果融合中相關(guān)度
2、規(guī)范化和均衡化的問題.經(jīng)實(shí)驗(yàn)驗(yàn)證,該方法對結(jié)果進(jìn)行了最優(yōu)化排序,其實(shí)際執(zhí)行性能超出了現(xiàn)有的任何一個組成系統(tǒng)的性能.關(guān) 鍵 詞:元搜索引擎;概率模型;結(jié)果優(yōu)化排序;排序融合中圖分類號:TP393.09;TP311.135 文獻(xiàn)標(biāo)識碼:A 文章編號:1671-4512(2003)03-0049-03 在目前所存在的搜索引擎中[1],沒有一個搜有少數(shù)公開其算法.事實(shí)上,即使用同樣的排序算索引擎能夠覆蓋所有的WWW資源,大部分的搜法,在處理相關(guān)度問題時依然存在很大的困難.原索引擎都只能涉及到整個資源的一小部分.并且因在于算法是基于不同的文件集合來排序文件.
3、各類搜索引擎的信息來源差異較大,因此集成多例如,R1是專門研究計算機(jī)科學(xué)的數(shù)據(jù)源,那么個搜索引擎而產(chǎn)生的元搜索引擎具有比傳統(tǒng)引擎詞語“數(shù)據(jù)結(jié)構(gòu)”可能會出現(xiàn)在很多文件中,于是覆蓋面大,引擎效果更好且具有可擴(kuò)展性等優(yōu)點(diǎn).“數(shù)據(jù)結(jié)構(gòu)”這個詞語在R1中將會有很低的相關(guān)其中對各個組成系統(tǒng)所返回的搜索結(jié)果進(jìn)行排序度.而與此同時,如果數(shù)據(jù)源R2和計算機(jī)科學(xué)完是提高元搜索引擎效率的關(guān)鍵技術(shù).全不相關(guān),并且R2中出現(xiàn)過這個詞語的文件很少,那么“數(shù)據(jù)結(jié)構(gòu)”在數(shù)據(jù)源R2中可能會有很高1 排序融合的關(guān)鍵技術(shù)的相關(guān)度.對包含“數(shù)據(jù)結(jié)構(gòu)”這個詞語的查詢,R1可能每一個成員搜索引擎都
4、有自己的排序檢索結(jié)會賦予文件較低的相關(guān)度,而R2則會賦予較高的果算法[2],根據(jù)用戶所給定查詢的相關(guān)度來排序[2],根據(jù)用戶所給定查詢的相關(guān)度來排序相關(guān)度.在同一個查詢中,兩個非常相似的文件f1文件.然而,這些方法千差萬別,通常每一個算法和f2,如果f1在R1中,而f2在R2中,卻得到了不都是某一搜索引擎提供者所特有的,并且算法不同的相關(guān)值.因此,即使數(shù)據(jù)源采用同樣的排序算公開,這就使得融合以及排序來自不同數(shù)據(jù)源的法,一個元搜索引擎仍然需要一些附加的信息用數(shù)據(jù)結(jié)果變得非常復(fù)雜.一種有效的辦法來融合查詢結(jié)果.1.1 相關(guān)度的規(guī)范化最好的解決辦法就是綜合考慮
5、各個成員搜索每一個成員搜索都有各自的尺度來衡量文件引擎所給出的相關(guān)度,從而消除各個數(shù)據(jù)源本身的相關(guān)度.例如,數(shù)據(jù)源R1判斷文件f1對某一查帶來的偏差.詢其相關(guān)度為0.1,而數(shù)據(jù)源R2判斷文件f2對某2 檢索結(jié)果排序的優(yōu)化方法一查詢其相關(guān)度為1000.如果想把來自R1和R2的結(jié)果融合成為單一的文件排序列表,那么f1的相關(guān)度是高于或者低于f2根本無法判斷,因?yàn)椴辉陧憫?yīng)一個給定查詢時,為了組合多個查詢
存在統(tǒng)一的標(biāo)準(zhǔn).如何統(tǒng)一各個數(shù)據(jù)源的相關(guān)度,檢索系統(tǒng)[3]所得到的文件排序列表,更好地解決這就涉及到相關(guān)度的規(guī)范化問題.上述兩個問題,提出了一種新的概率模型.1
6、.2 相關(guān)度的均衡化2.1 一種元搜索引擎的概率模式大多數(shù)搜索引擎的排序算法是不公開的,只假定在響應(yīng)給定查詢時,元搜索引擎已經(jīng)得收稿日期:2002-09-06.作者簡介:文坤梅(1978-),女,碩士研究生;武漢,華中科技大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院(430074).基金項(xiàng)目:國家高性能計算基金資助項(xiàng)目(99319). 50 華 中 科 技 大 學(xué) 學(xué) 報(自然科學(xué)版) 第31卷到了各個成員搜索引擎的文件排序列表.同時也相關(guān)度與非相關(guān)度的比率消除了相關(guān)度的規(guī)獲取了一些簡單的統(tǒng)計信息,包括關(guān)于組成系統(tǒng)范化問題,屏蔽掉
7、了各個成員搜索引擎中具體的的平均執(zhí)行性能信息.這些信息都是以元數(shù)據(jù)形相關(guān)度;另外各個成員搜索引擎的比率值相加這式給出的.基于這些信息,提出了一種概率模型并一點(diǎn)又綜合考慮了各個搜索引擎所起的作用,實(shí)推導(dǎo)出優(yōu)化的元搜索引擎策略.現(xiàn)了相關(guān)度的均衡化,從而客觀地反映了文件的其中元數(shù)據(jù)包括:對任何一個查詢,每一個成真實(shí)相關(guān)度.員搜索引擎所對應(yīng)文件的相關(guān)度和不相關(guān)度,且2.2 方法評估與實(shí)驗(yàn)結(jié)果這些都是未規(guī)范化的初始值.利用基于概率模型的優(yōu)化方法進(jìn)行了實(shí)驗(yàn),給定n個檢索系統(tǒng)返回的文件排序列表,以目前比較通用的6種搜索引擎作為成員引擎集ri(d)被檢索系統(tǒng)i賦值為文件
8、d的相關(guān)度(如果成了元搜索引擎Mix,這五種成員搜索引擎分別是:新浪(sina)