資源描述:
《檢索結(jié)果隱式多樣化排序方法研究》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、分類號TP311.1密級公開.UDC004.4編號10299z1308029.碩士學(xué)位論文檢索結(jié)果隱式多樣化排序方法研究ResearchonImplicitMethodsinSearchResultDiversification指導(dǎo)教師吳勝利教授.作者姓名鄔艷艷.申請學(xué)位級別專業(yè)碩士專業(yè)名稱計(jì)算機(jī)技術(shù)論文提交日期2016年4月論文答辯日期2016年6月學(xué)位授予單位和日期江蘇大學(xué).答辯委員會主席張建明.評閱人__________學(xué)位論文版權(quán)使用授權(quán)書江蘇大學(xué)、中國科學(xué)技術(shù)信息研究所、國家圖書館、中國學(xué)術(shù)期刊(光盤版)電
2、子雜志社有權(quán)保留本人所送交學(xué)位論文的復(fù)印件和電子文檔,可以采用影印、縮印或其他復(fù)制手段保存論文。本人電子文檔的內(nèi)容和紙質(zhì)論文的內(nèi)容相一致,允許論文被查閱和借閱,同時授權(quán)中國科學(xué)技術(shù)信息研究所將本論文編入《中國學(xué)位論文全文數(shù)據(jù)庫》并向社會提供查詢,授權(quán)中國學(xué)術(shù)期刊(光盤版)電子雜志社將本論文編入《中國優(yōu)秀博碩士學(xué)位論文全文數(shù)據(jù)庫》并向社會提供查詢。論文的公布(包括刊登)授權(quán)江蘇大學(xué)研究生處辦理。本學(xué)位論文屬于不保密□。學(xué)位論文作者簽名:指導(dǎo)教師簽名:年月日年月日獨(dú)創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師的指
3、導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的成果。除文中已注明引用的內(nèi)容以外,本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的作品成果。對本文的研究做出重要貢獻(xiàn)的個人和集體,均已在文中以明確方式標(biāo)明。本人完全意識到本聲明的法律結(jié)果由本人承擔(dān)。學(xué)位論文作者簽名:日期:年月日江蘇大學(xué)碩士學(xué)位論文摘要隨著科技的不斷發(fā)展,人們對信息檢索的要求越來越高。通常情況下,用戶通過提交的查詢關(guān)鍵詞來獲得想要的信息,而傳統(tǒng)的檢索系統(tǒng)只是根據(jù)文檔與查詢的匹配度返回結(jié)果。關(guān)鍵詞查詢作為用戶信息需求經(jīng)常是模糊的、具有多義的,即使是相同的查詢,不同用戶感興趣
4、的方面也可能不一致,所以傳統(tǒng)檢索系統(tǒng)已經(jīng)很難滿足用戶的多樣化信息需求,這使得研究者們逐步意識到信息檢索多樣化的必要性。對于一給定查詢,信息檢索系統(tǒng)應(yīng)該盡可能給出覆蓋多方面的結(jié)果,來滿足用戶潛在的不同信息需求?,F(xiàn)有支持多樣性的檢索系統(tǒng)通常采用兩階段處理的方式。第一階段與傳統(tǒng)信息檢索系統(tǒng)相同,排名時只考慮文檔的相關(guān)性。第二階段在第一階段的基礎(chǔ)上對文檔進(jìn)行多樣化排序以提升多樣性。目前,信息檢索結(jié)果多樣化排序方法有多種,主要可以歸納為兩類:顯式方法和隱式方法。顯式方法是假定可通過一些外部資源了解到查詢的更多信息。而隱式方法則
5、不依賴外部資源提供的額外信息,只考慮檢索結(jié)果中的文檔本身。本文主要是對隱式方法相關(guān)的方面進(jìn)行研究,以往的研究更多的是關(guān)注某個方法本身的性能,而多種方法孰優(yōu)孰劣及各自的適用環(huán)境并不是很明確,且關(guān)于已提出方法的性能比較研究甚少。對于一個支持結(jié)果多樣化的檢索系統(tǒng)而言,選擇哪種重排算法進(jìn)行結(jié)果多樣化是值得研究的。本文的主要工作如下:(1)分析比較信息檢索結(jié)果多樣化中經(jīng)典隱式多樣化算法的性能。分析的經(jīng)典隱式多樣化算法有最大邊際相關(guān)度(MMR)法、相對熵(KL)法、現(xiàn)代投資組合理論(MPT)、稀疏空間選擇多樣化(SSSD)、量子
6、概率排序原則(QPRP)以及最大和分布(MSD)。通過實(shí)驗(yàn)比較六個隱式多樣化算法的性能,并采用多樣化的評價(jià)指標(biāo)對實(shí)驗(yàn)的結(jié)果進(jìn)行評價(jià)。(2)提出基于貪心局部搜索下的稀疏空間選擇多樣化算法,即GLSS算法(SparsespatialselectiondiversificationbasedonGreedyLocalSearch)。該算法是把稀疏空間選擇多樣化方法來檢索前k文檔的問題當(dāng)作運(yùn)籌學(xué)中基礎(chǔ)設(shè)施位置問題來分析,并使用貪婪局部搜索方式選取滿足用戶需求的前k個文檔。通過實(shí)驗(yàn)I隱式多樣化方法的研究與分析比較了GLSS算法
7、、SSSD方法、量子概率排序原則(QPRP)和基于貪心局部搜索下的量子概率排序原則(QPRP-GLS)的性能,實(shí)驗(yàn)結(jié)果表明算法GLSS在多樣化評價(jià)指標(biāo)上表現(xiàn)最好。關(guān)鍵詞:檢索結(jié)果多樣化,隱式重排序,稀疏空間選擇,局部貪心搜索II江蘇大學(xué)碩士學(xué)位論文ABSTRACTWiththecontinuousdevelopmentofscienceandtechnology,peopledependoninformationretrievalsystemsmoreheavily.Typically,userssubmitthei
8、rqueriestogettheinformationthattheywant.Atraditionalretrievalsystemreturnstheresultsbasedontheirmatchingwiththequery.However,theextensiveuseofWebsearchengineinrecentyearsmak