主題信息搜索系統(tǒng)中的搜索策略研究-論文.pdf

主題信息搜索系統(tǒng)中的搜索策略研究-論文.pdf

ID:53909068

大小:298.49 KB

頁數(shù):4頁

時間:2020-04-27

主題信息搜索系統(tǒng)中的搜索策略研究-論文.pdf_第1頁
主題信息搜索系統(tǒng)中的搜索策略研究-論文.pdf_第2頁
主題信息搜索系統(tǒng)中的搜索策略研究-論文.pdf_第3頁
主題信息搜索系統(tǒng)中的搜索策略研究-論文.pdf_第4頁
資源描述:

《主題信息搜索系統(tǒng)中的搜索策略研究-論文.pdf》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。

1、第13卷第1期、r01.13No.12014年1月Jan.2014主題信息搜索系統(tǒng)中的搜索策略研究張小琴,王曉輝(1.中南民族大學圖書館;2.中南民族大學電信學院,湖北武漢430074)摘要:針對主題搜索引擎反饋信息主題相關(guān)度低的問題,提出了將遺傳算法與基于內(nèi)容的空間向量模型相結(jié)合的搜索策略。利用空間向量模型確定網(wǎng)頁與主題的相關(guān)度,并將遺傳算法應(yīng)用于相關(guān)度判別,提高主題信息搜索的準確率和查全率。在Heritrix框架基礎(chǔ)上,利用Eclipse3.3實現(xiàn)了相應(yīng)功能。實驗結(jié)果表明,搜索策略改進后的系統(tǒng)抓取主題頁面所占比例與原系統(tǒng)相比提高了約3O。關(guān)鍵詞:搜索引擎;搜索策略;遺傳算

2、法;空間向量模型中圖分類號:TP319文獻標識碼:A文章編號:1672—7800(2014)001—0089—04步]。在大規(guī)模文本處理中,向量空間模型_7是一種效率0引言較高的文本表示模型,是當前對自然語言處理時采用的主流模型。向量空間模型(VectorSpaceModel:VSP)是把主題信息搜索系統(tǒng)服務(wù)于特定的應(yīng)用領(lǐng)域,其任務(wù)是文本的內(nèi)容簡化處理后,生成在向量空間中的向量運算,獲取與主題相關(guān)的頁面,無需遍歷全網(wǎng)。在主題信息搜索并利用在空間中的某種關(guān)系來表達語義上的相似程度。系統(tǒng)中,搜索策略是影響系統(tǒng)性能的關(guān)鍵。常用的主題搜當某一文檔被確定為空間向量模型時,通過計算向量的

3、相索策略有:基于網(wǎng)頁鏈接結(jié)構(gòu)的搜索策略和基于內(nèi)容評價似度來衡量文檔之間的相似性。的搜索策略。其中,PageRank_1和Hits_2是基于鏈接結(jié)向量空間模型的基本要素包括:①文本內(nèi)容(Docu—構(gòu)的搜索策略,F(xiàn)ish算法

4、3和Shark算法是基于內(nèi)容評ment):通常指某個網(wǎng)頁中所有文字信息內(nèi)容;②項價的搜索策略。這些搜索策略存在主題漂移、忽略鏈接結(jié)(Term):指字、詞語、詞組等基本單位要素;③權(quán)重構(gòu)信息,以及在預(yù)測網(wǎng)頁的重要程度方面存在不足等問(Weight):對于某個含有M個項的文本內(nèi)容X(T,T,題。T。,?,T),項被賦予一定的權(quán)重,體現(xiàn)項在文本中的基于此,本文在目

5、前常用的主題爬蟲Heritrix[5框架重要程度,可表示為D一(T,W,T:,W,T,W。?,基礎(chǔ)上,將遺傳算法與基于內(nèi)容的空間向量模型相結(jié)合改T,W);④空間模型(VSM):設(shè)一文本X(T,T,進其搜索策略。通過在搜索的初始階段引入高質(zhì)量的種,?,T),為了方便分析,不考慮那些重復(fù)出現(xiàn)且有子集合,搜索過程中結(jié)合Hub網(wǎng)頁對主題的貢獻,以及向先后次序的項,把T,T,T。,?,T看成是一個M維量空間模型對于網(wǎng)頁主題的判斷,進行交叉變異操作。這的坐標,,w,Ⅳ。?,分別對應(yīng)坐標的值,這樣一方面提高了網(wǎng)頁的搜索質(zhì)量,另一方面也擴大了搜索范D=(T,W。,T2,W2,T3,W?,,W

6、M)被視為一個圍。M維的向量。權(quán)重的計算是基于詞頻TF,項的詞頻是指某個單詞1向量空間模型及相似度計算在文本中出現(xiàn)的次數(shù),TF的值越高權(quán)重就越大。本文對TF作歸一化的權(quán)重計算,將文本中所有項對應(yīng)的TF值在主題信息搜索系統(tǒng)中,文本特征表示是關(guān)鍵的一在[o,1]之間進行歸一化處理??刹捎靡韵聨追N方法:[3]劉鳳七.網(wǎng)絡(luò)課程的智能答疑系統(tǒng)研究與設(shè)計ED].貴陽:貴州師范沈陽理工大學,2008.大學。2009.[6]王叢林.在線自動答疑系統(tǒng)設(shè)計與開發(fā)的研究[-t)3.長春:東北師范[4]黃杰.基于Lucene的全文檢索系統(tǒng)模型的研究[D].濟南:暨南大大學,2O1O.學,2007.[

7、-73周龍.基于樸素貝葉斯的分類方法研究[-D3.合肥:安徽大學,2006.[53張琳.基于Lucene的電子公文檢索系統(tǒng)的研究與實現(xiàn)[D].沈陽:(責任編輯:孫娟)基金項目:中央高?;究蒲袠I(yè)務(wù)費專項資金項目(zZQ1O0l1)作者簡介:張小琴(1974一),女,中南民族大學圖書館館員,研究方向為智能移動代理、下一代搜索引擎;王曉輝(1988~),男,中南民族大學電信學院碩士研究生,研究方向為下一代搜索引擎。軟件導(dǎo)刊2Ol4年根據(jù)設(shè)置好的交叉概率P.取排在前N*P的頁面作為(1)最大值歸一化:W一≥F。交叉結(jié)果。在交叉結(jié)果中,依然會存在和種子集合中重復(fù)存在的網(wǎng)頁,所以在生成

8、交叉結(jié)果前,對URL采取不重(2)加強最大歸一化:W一O.5+O.5×。復(fù)策略的判斷,確保進入隊列的URL的唯一性,避免重復(fù)性操作,提高效率。(3)余弦歸一化:W一^—/==∑蘭T蘭F。(3)變異處理?;ヂ?lián)網(wǎng)中的網(wǎng)頁具有相互的鏈接性,文本相似度是反映兩個文本之間相關(guān)程度的統(tǒng)計量,對于一些目錄型網(wǎng)頁,鏈接本身沒有確定的主題,但是其相似度的數(shù)值一般定義為[O,1]之間,如果文本之間的相中的鏈接可能會與主題相關(guān),為了將這部分網(wǎng)頁包含在似度為1,說明兩個文本完全相同,完全不同時為0,可以內(nèi),擴大搜索范圍,需進行

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。