檢索結(jié)果聚類算法研究綜述

檢索結(jié)果聚類算法研究綜述

ID:10167049

大小:32.00 KB

頁數(shù):9頁

時間:2018-06-12

檢索結(jié)果聚類算法研究綜述_第1頁
檢索結(jié)果聚類算法研究綜述_第2頁
檢索結(jié)果聚類算法研究綜述_第3頁
檢索結(jié)果聚類算法研究綜述_第4頁
檢索結(jié)果聚類算法研究綜述_第5頁
資源描述:

《檢索結(jié)果聚類算法研究綜述》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫。

1、檢索結(jié)果聚類算法研究綜述摘要:隨著互聯(lián)網(wǎng)的普及和web上網(wǎng)頁數(shù)量的迅猛增長,搜索引擎已經(jīng)成為從網(wǎng)上獲取信息的首選工具。然而,目前主流的搜索引擎利用關鍵詞建立索引,根據(jù)檢索結(jié)果和查詢詞的相關性從高到低排成一個很長的線性列表,而且檢索結(jié)果中包含了大量的無用信息,因此對檢索結(jié)果進行重新組織和挖掘成為了研究熱點。本文介紹了檢索結(jié)果聚類的應用背景,然后介紹了檢索結(jié)果聚類的算法,最后介紹了檢索結(jié)果聚類質(zhì)量評測標準。關鍵詞:檢索結(jié)果,;聚類,;簇,;標簽中圖分類號:TP3911.引言9目前的搜索引擎的檢索器是用關鍵詞建立索引,查詢含有關

2、鍵詞的網(wǎng)頁的鏈接。檢索器根據(jù)檢索結(jié)果和查詢詞的相關性從高到低排成一個線性列表。但是一個檢索結(jié)果往往包含成千上萬的網(wǎng)頁信息,所以搜索引擎的檢索結(jié)果的線性列表很長。同時其檢索的結(jié)果仍然包含了很多與用戶無關的信息,其比例高達75%以上[1],用戶不得不逐個瀏覽,這導致要找到自己真正需要的信息很困難。目前有很多算法在改進檢索的排序算法,但是光改進算法是不夠的。因為很多時候用戶在輸入的查詢詞根本就不能完全表達用戶的需要,查詢的效果就比較差。針對查詢結(jié)果不能令人滿意的情況下,很多研究學者開始在搜索結(jié)果的基礎上進行了聚類的研究。將文檔分

3、成若干個簇(cluster),使同一簇類文檔相關度盡可能大,不同簇之間文檔相關度盡可能小,而用戶在自己感興趣的簇內(nèi)查看檢索結(jié)果,就可以縮小用戶瀏覽的結(jié)果,方便用戶的查詢。對檢索結(jié)果的網(wǎng)頁摘要(Snippet)聚類,實質(zhì)是根據(jù)摘要的主題相似性劃分成不同的簇。每一個簇的主題可以看成是查詢的子主題,這樣整個檢索結(jié)果集就可以以層次的形式呈現(xiàn)給用戶,最頂層為用戶查詢詞,下層為聚類得到的子主題和標簽及每個子主題下的對應的網(wǎng)頁摘要。檢索結(jié)果聚類不同于傳統(tǒng)的文本聚類和網(wǎng)頁聚類,主要體現(xiàn)在[22]:(1)檢索結(jié)果聚類既要得到高質(zhì)量的簇,同時

4、還需要確定每個簇的主題描述,或稱簇標簽,而傳統(tǒng)的聚類一般無需得到簇的標簽。簇的描述標簽非常重要,不僅需要完整的包含一定意義的短語,同時還需要能夠?qū)υ摯剡M行主題描述,并且有較強的可讀性;(2)檢索結(jié)果的聚類對象為網(wǎng)頁片斷,信息有限,而傳統(tǒng)的聚類對象為文本或網(wǎng)頁的全文,包含了豐富的信息;(3)檢索結(jié)果聚類屬于在線聚類(Online9Clustering),檢索對象動態(tài)變化,實時性要求高。而傳統(tǒng)的聚類對象一般比較穩(wěn)定,對算法的效率沒有實時性要求。根據(jù)上述特點傳統(tǒng)的聚類不能直接適用于檢索結(jié)果聚類。2.1檢索結(jié)果聚類算法從上世紀九十

5、年代中期開始,Pedersen[2,3]等人提出基于結(jié)果的聚類算法。目前,很多研究者已經(jīng)研究并提出了一系列的基于檢索結(jié)果聚類算法,也出現(xiàn)了幾個投入運營的、具有聚類功能的搜索引擎。然而,聚類的效果還遠未達到令人滿意的程度,聚類質(zhì)量還有待提高,尤其是簇標簽的可讀性還有必要進行大的改進。否則,聚類功能不但對用戶的幫助有限,而且還會誤導用戶。但是由于聚類是具有實時性的,所以對采用算法的復雜性也提出了要求。例如,元搜索引擎Metacrawler利用后綴樹聚類算法,過濾了由多個搜索引擎返回的不相關的重復的檢索結(jié)果,然后對返回結(jié)果的片段

6、進行聚類,但是它并不支持中文查詢詞。國內(nèi)最著名的基于聚類的中文元搜索引擎比比貓www.bbmao.com,遺憾的是它只存在了非常短暫的時間。9目前基于檢索結(jié)果摘要聚類的算法主要分為兩大類[4]。第一類是先對檢索結(jié)果集進行聚類,然后再針對每個簇提取簇標簽,這種方法稱為基于文檔(Document-based)的聚類方法;第二類是先提取簇的標簽,再根據(jù)標簽在網(wǎng)頁片斷中的出現(xiàn)情況,利用聚類算法進行聚類,這種方法被稱為基于標簽(Label-based)的聚類方法。盡管研究者們?yōu)榱颂岣邫z索結(jié)果的聚類質(zhì)量進行了卓有成效的努力,然而,在目

7、前搜索引擎的應用背景下,如果沒有好的簇標簽,用戶仍然難以快速準確地找到自己感興趣的信息,差的標簽甚至對用戶具有誤導作用。因此,近年來,基于標簽的檢索結(jié)果聚類逐漸成為研究的主流和熱點,這類方法更加強調(diào)標簽的可讀性和對簇的概括性,不太注重每個簇的連貫性(Coherence)。21.1基于文檔的聚類算法基于文檔的聚類算法主要的目標是提高檢索結(jié)果聚類的質(zhì)量,在聚類完成以后再提取對應類別的標簽。StevenSchockaert[5]提出基于模糊蟻群算法對檢索結(jié)果進行聚類的基本思想,然后提取簇的標簽,其目的主要是為解決傳統(tǒng)聚類需要指定

8、簇個數(shù)且質(zhì)量不高的問題,而標簽的提取不是重點,重點在于聚類的質(zhì)量。FatihGelgi[6]為了準確提取文檔特征和對特征進行加權,使用關系圖表示特征詞與查詢詞之間的關聯(lián),再用TermRank進行關聯(lián)度分析,根據(jù)關聯(lián)度分析結(jié)果將特征詞劃分為區(qū)分性詞項、歧義性詞項和公共詞項,并對三種不同類型的詞項采用不同的

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。