【論文】基于xml的個性化搜索算法研究

【論文】基于xml的個性化搜索算法研究

ID:9430610

大?。?98.50 KB

頁數(shù):31頁

時間:2018-04-30

【論文】基于xml的個性化搜索算法研究_第1頁
【論文】基于xml的個性化搜索算法研究_第2頁
【論文】基于xml的個性化搜索算法研究_第3頁
【論文】基于xml的個性化搜索算法研究_第4頁
【論文】基于xml的個性化搜索算法研究_第5頁
資源描述:

《【論文】基于xml的個性化搜索算法研究》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在學術論文-天天文庫

1、第一章緒論1.1研究背景及意義1.1.1研究背景隨著Internet網(wǎng)絡的普及和WWW的迅猛發(fā)展,網(wǎng)絡已成為人們獲得信息的必要途徑和重要手段,網(wǎng)絡中的海量信息既給人們帶來方便,也帶來了許多問題。信息浩如煙海,為找到有用信息,人們經(jīng)常要耗費大量寶貴的時間,所以近年來Internet個性化搜索服務越來越引起人們的關注。雖然現(xiàn)在有些搜索引擎可以對搜索結果進行打分并按得分的高低來呈現(xiàn)給用戶,但是由于沒有考慮到用戶個人的興趣愛好,不同用戶對于同樣的搜索關鍵詞搜索出的信息是相同的,這樣做并不能完全滿足用戶的要求[1

2、],如何從中快速準確的發(fā)掘所需信息已經(jīng)成為人們所關注的一個重要問題。同時互聯(lián)網(wǎng)上XML文檔的不斷增多,對XML數(shù)據(jù)的使用越來越依賴于互聯(lián)網(wǎng)搜索引擎強大的檢索能力,在XML(eXtensibleMarkupLanguage)發(fā)布之前,國際互聯(lián)網(wǎng)的發(fā)展受到以下束縛:HTML無法描述數(shù)據(jù)內(nèi)容,對數(shù)據(jù)表現(xiàn)的描述能力十分不夠,如還不能描述矢量圖形、科學符號等對象,而這一點恰恰是數(shù)據(jù)檢索、電子商務所必須的,完全不能適應對新標記需求的發(fā)展需要。而XML的出現(xiàn),使上述問題都得到很好的解決。隨著越來越多的Web數(shù)據(jù)開始采

3、用XML進行描述、存儲、交換和表現(xiàn),基于XML文檔的信息查詢能力變得日益重要[2]。與此同時,隨著個性化技術的高速發(fā)展,網(wǎng)絡的個性化服務需求增大。Internet上存貯了大量的文檔、圖形、圖像、音頻數(shù)據(jù)、商業(yè)數(shù)據(jù)、天氣和水文數(shù)據(jù)、電子政務和電子商務信息等,表現(xiàn)出了Web數(shù)據(jù)的多樣性;而Internet本身也具有非結構化、動態(tài)性、不完全性、混沌等特點,體現(xiàn)了巨大、分布、多維的特性。Inter第31頁共31頁net上大約有近億個工作站,用戶有充分的自由,可以隨意鏈接到Internet的任意站點上,而且用戶具

4、有不同的背景、不同的興趣和使用目的,因此,Web用戶群體也表現(xiàn)出多樣性的特點。不同層次、不同愛好和不同瀏覽器有不同興趣和行為偏好的用戶需要不一樣的信息,因此對特定的用戶開展個性化的信息查詢是新的檢索工具所必有功能。而現(xiàn)在的搜索引擎針對這個問題存在著各種缺陷,造成這種困難的實質在于Web信息檢索系統(tǒng)(即搜索引擎)缺乏知識處理能力和理解能力,HTML信息表示非結構化,信息抽取算法能力不足、對要檢索的信息僅僅采用機械的關鍵詞匹配來實現(xiàn),信息的特征沒有包含語義信息,沒有在結構和內(nèi)容上進行融合,用戶模型功能單一,

5、缺少推送機制等。新的信息檢索系統(tǒng)要利用Web挖掘、機器學習、人工智能等先進計算機技術改進用戶模型,優(yōu)化信息抽取、特征選擇、相關分析等算法,完善推送機制,實現(xiàn)個性化服務,這是解決問題的根本和關鍵,研發(fā)的焦點更是集中在如何更有效滿足用戶個性化需求等方面[3]。1.1.2研究意義Web的出現(xiàn)改變了人們進行信息檢索的方式,搜索引擎成為人們獲取信息的主要方式,信息檢索的對象也從結構化的數(shù)據(jù)轉向半結構、無結構化的數(shù)據(jù)。近年來基于Web的個性化、智能化信息檢索研究正逐步展開,它將改變并解決目前搜索引擎中遇到的各種問題

6、和矛盾,提供從信息過渡到知識的檢索方式,有效提高系統(tǒng)的基本效率。(l)本文針對搜索引擎對所有用戶顯示相同結果,沒考慮用戶使用行為特征的問題,展開了個性化搜索引擎的研究,這改變了傳統(tǒng)搜索引擎的設計思路和理念;(2)本文針對個性化搜索算法中的關鍵技術進行了研究和開發(fā),為提高搜索引擎的效率提供了新的方法;(3)本文在信息表示時,采用了XML統(tǒng)一表示方法,對網(wǎng)絡信息表示在信息檢索領域中的優(yōu)化和提高有一定的借鑒意義。1.2搜索引擎的研究現(xiàn)狀與發(fā)展趨勢搜索引擎是一種聯(lián)機信息檢索系統(tǒng),它為人們提供了檢索Web上相關信

7、息的方法。它是一種在Web上應用的軟件系統(tǒng),它以一定的策略在Web上搜集和發(fā)現(xiàn)信息,在對信息進行處理和組織后,為用戶提供Web信息查詢服務,從使用者的角度上看,這種軟件系統(tǒng)提供一個網(wǎng)頁界面,讓她通過瀏覽器提交一個詞語或者短語,然后很快返回一個可能和用戶輸入內(nèi)容相關的信息列表,這個列表的每一條目代表一篇網(wǎng)頁,每個條目至少有三個元素:標題,URL,摘要[4]。1.2.1研究現(xiàn)狀卡內(nèi)基梅隆大學教授TomMitchell在MIT的刊物TechnologyReview上發(fā)表文章,指出第一代的搜索引擎是基于關鍵詞的

8、搜索;第二代的搜索引擎是基于文檔主題的文檔分類;第三代的搜索引擎是目前的研究重點和熱點,目前信息檢索的主要任務是“實體抽取”(EntityExtraction)[5]。搜索引擎的發(fā)展經(jīng)歷了以下三個階段:⑴第一代搜索引擎Yahoo模式為典范。它是一個綜合性網(wǎng)站,通過等級列舉式瀏覽檢索和關鍵詞檢索查詢因特網(wǎng)上各類學科領域的內(nèi)容,提供的服務種類多而且涉及的領域廣。因其提供的是免費的大眾化綜合性信息服務,所包括的范圍廣泛但不深入,故被稱為水平門戶網(wǎng)

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。