資源描述:
《主題信息搜索系統(tǒng)中搜索策略探究》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。
1、主題信息搜索系統(tǒng)中搜索策略探究 摘要:針對主題搜索引擎反饋信息主題相關(guān)度低的問題,提出了將遺傳算法與基于內(nèi)容的空間向量模型相結(jié)合的搜索策略。利用空間向量模型確定網(wǎng)頁與主題的相關(guān)度,并將遺傳算法應(yīng)用于相關(guān)度判別,提高主題信息搜索的準(zhǔn)確率和查全率。在Heritrix框架基礎(chǔ)上,利用Eclipse3.3實現(xiàn)了相應(yīng)功能。實驗結(jié)果表明,搜索策略改進后的系統(tǒng)抓取主題頁面所占比例與原系統(tǒng)相比提高了約30%。關(guān)鍵詞:搜索引擎;搜索策略;遺傳算法;空間向量模型中圖分類號:TP319文獻標(biāo)識碼:A文章編號文章編號:16727800(2014)001008904基金項目基金項目:中央高?;究蒲袠I(yè)務(wù)費專項資金項目
2、(ZZQ10011)作者簡介作者簡介:張小琴(1974),女,中南民族大學(xué)圖書館館員,研究方向為智能移動代理、下一代搜索引擎;王曉輝(1988-),男,中南民族大學(xué)電信學(xué)院碩士研究生,研究方向為下一代搜索引擎。0引言11主題信息搜索系統(tǒng)服務(wù)于特定的應(yīng)用領(lǐng)域,其任務(wù)是獲取與主題相關(guān)的頁面,無需遍歷全網(wǎng)。在主題信息搜索系統(tǒng)中,搜索策略是影響系統(tǒng)性能的關(guān)鍵。常用的主題搜索策略有:基于網(wǎng)頁鏈接結(jié)構(gòu)的搜索策略和基于內(nèi)容評價的搜索策略。其中,PageRank[1]和Hits[2]是基于鏈接結(jié)構(gòu)的搜索策略,F(xiàn)ish算法[3]和Shark算法[4]是基于內(nèi)容評價的搜索策略。這些搜索策略存在主題漂移、忽略鏈接結(jié)
3、構(gòu)信息,以及在預(yù)測網(wǎng)頁的重要程度方面存在不足等問題?;诖?,本文在目前常用的主題爬蟲Heritrix[5]框架基礎(chǔ)上,將遺傳算法與基于內(nèi)容的空間向量模型相結(jié)合改進其搜索策略。通過在搜索的初始階段引入高質(zhì)量的種子集合,搜索過程中結(jié)合Hub網(wǎng)頁對主題的貢獻,以及向量空間模型對于網(wǎng)頁主題的判斷,進行交叉變異操作。這一方面提高了網(wǎng)頁的搜索質(zhì)量,另一方面也擴大了搜索范圍。1向量空間模型及相似度計算在主題信息搜索系統(tǒng)中,文本特征表示是關(guān)鍵的一步[6]。在大規(guī)模文本處理中,向量空間模型[7]是一種效率較高的文本表示模型,是當(dāng)前對自然語言處理時采用的主流模型。向量空間模型(VectorSpaceModel:V
4、SP)是把文本的內(nèi)容簡化處理后,生成在向量空間中的向量運算,并利用在空間中的某種關(guān)系來表達語義上的相似程度。當(dāng)某一文檔被確定為空間向量模型時,通過計算向量的相似度來衡量文檔之間的相似性。11向量空間模型的基本要素包括:①文本內(nèi)容(Document):通常指某個網(wǎng)頁中所有文字信息內(nèi)容;②項(Term):指字、詞語、詞組等基本單位要素;③權(quán)重(Weight):對于某個含有M個項的文本內(nèi)容X(T1,T2,T3,…,TM),項被賦予一定的權(quán)重,體現(xiàn)項在文本中的重要程度,可表示為D=(T1,W1,T2,W2,T3,W3…,TM,WM);④空間模型(VSM):設(shè)一文本X(T1,T2,T3,…,TM),為了
5、方便分析,不考慮那些重復(fù)出現(xiàn)且有先后次序的項,把T1,T2,T3,…,TM看成是一個M維的坐標(biāo),W1,W2,W3…,WM分別對應(yīng)坐標(biāo)的值,這樣D=(T1,W1,T2,W2,T3,W3…,TM,WM)被視為一個M維的向量。權(quán)重的計算是基于詞頻TF,項的詞頻是指某個單詞在文本中出現(xiàn)的次數(shù),TF的值越高權(quán)重就越大。本文對TF作歸一化的權(quán)重計算,將文本中所有項對應(yīng)的TF值在[0,1]之間進行歸一化處理。可采用以下幾種方法:(1)最大值歸一化:Wi=TFiMaxiTFi。(2)加強最大歸一化:Wi=0.5+0.5×TFiMaxiTFi。(3)余弦歸一化:Wi=TFi∑iTF2i。11文本相似度是反映兩個
6、文本之間相關(guān)程度的統(tǒng)計量,相似度的數(shù)值一般定義為[0,1]之間,如果文本之間的相似度為1,說明兩個文本完全相同,完全不同時為0,可以借助空間向量模型進行評價。在空間向量模型中,相似度的計算方法有內(nèi)積法、距離函數(shù)法、Jaccard系數(shù)法、余弦法,本文采用余弦法進行相關(guān)度計算。利用文檔中出現(xiàn)的詞條對文檔建立D=(T1,W1,T2,W2,T3,W3…,TM,WM)的空間向量模型。假設(shè)Di、Dj是要計算相關(guān)度的頁面,頁面的相關(guān)度是計算兩個頁面向量的余弦值。計算公式如下:Sin(Di,Dj)=cosθ=∑Mk=1Wi,k×Wj,k∑Mk=1W2i,k∑Mi=1W2j,k211算法設(shè)計結(jié)合遺傳算法和基于文
7、本內(nèi)容的空間向量模型,利用遺傳算法的全局查優(yōu)特點保證搜索的整體性,以空間向量模型確定主題相關(guān)度。將遺傳算法應(yīng)用到主題信息搜索系統(tǒng)中進行查找鏈接,在查找過程中不斷選擇變異優(yōu)化,對搜索過程進行啟發(fā)式引導(dǎo)。把待搜索的頁面集看作遺傳因子,首先初始化種子集合,通過爬蟲抓取到第一代的群體網(wǎng)頁,根據(jù)之前構(gòu)造的向量空間模型計算出網(wǎng)頁之間的相關(guān)度值,選擇相關(guān)度值大于設(shè)定閾值T作為下一代群體。交叉的操作是對所有已經(jīng)抓