資源描述:
《搜索技術(shù)在人工智能領(lǐng)域的實際應(yīng)用.doc》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、搜索技術(shù)在人工智能領(lǐng)域的實際應(yīng)用摘要:介紹了搜索引擎的分類、工作原理,并具體分析了搜索引擎的體系結(jié)構(gòu),包括信息的搜集系統(tǒng)、索引系統(tǒng)以及查詢接口?;诂F(xiàn)在人工智能技術(shù)的迅速發(fā)展,對于在搜索引擎中運用的人工智能技術(shù)進(jìn)行了研究,且著重分析了搜索引擎重要模塊:Robot的智能化、智能代理技術(shù)以及查詢接口的智能化,有力地描述了搜索引擎發(fā)展的智能化方向與方法,對智能型搜索引擎所面臨的挑戰(zhàn)以及未來發(fā)展進(jìn)行了展望。關(guān)鍵字:人工智能;搜索技術(shù);應(yīng)用;Thepracticalapplicationofsearchtechnologyinart
2、ificialintelligencefieldLiaoYongqi(institutionofMechanicalEngineeringandshanghaiinstitutionoftechnologyandshanghai)Abstracts:Theclassificationandoperatingprinciplesofthesearchengineareintroducedinthispaper,anditssystematicstructureisanalyzedconcretely,includingthe
3、systemsofcollectionandindexandtheinputofinquiries.TheapplicationofArtificialIntelligence(AI)technologytosearchengineisstudied,especiallytheintelligentizationoftheimportantmodulesofthesearchenginesuchasRobot,agents,andtheinputofinquires,andthedirectionandmeansofthe
4、intelligentizationaredescribed.Thefuturedevelopmentoftheintelligentsearchengineandthechallengesarealsodiscussed.KeyWords:Artificialintelligence;searchtechnology;application;0引言隨著Internet的發(fā)展,網(wǎng)絡(luò)已經(jīng)是信息發(fā)布和傳輸?shù)闹匾绞?Web已經(jīng)發(fā)展成為擁有幾億頁面的分布式信息空間,而且仍以每120~240d翻一倍的速度增加。雖然Internet
5、上蘊藏著巨大的信息資源,但是要從這個信息海洋中準(zhǔn)確快速地找到并獲得自己所需的信息,往往比較困難。為了解決這個問題,人們開發(fā)了各種檢索工具,以期望能提供這種信息服務(wù)。隨著各種技術(shù)的日漸成熟,網(wǎng)絡(luò)搜索引擎開始迅速發(fā)展起來。網(wǎng)絡(luò)搜索引擎是以一定的策略在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,并對信息進(jìn)行理解、提取、組織和處理,為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的作用。1 搜索引擎技術(shù)1.1 搜索引擎的分類1.1.1 目錄式搜索引擎目錄式搜索引擎的特點是以人工方式或半自動方式搜集信息,編輯人員在訪問了某個Web站點后形成信息摘要,并根據(jù)站點的容
6、和性質(zhì)將其歸為一個預(yù)先分好的類別,把站點的URL和描述放在這個類別中,當(dāng)用戶查詢某個關(guān)鍵詞時,搜索軟件只在這些描述中進(jìn)行搜索。很多目錄也接受用戶提交的和描述,當(dāng)目錄的編輯人員認(rèn)可該及描述后,就會將之添加到合適的類別中。目錄式搜索引擎的優(yōu)點是信息準(zhǔn)確、導(dǎo)航質(zhì)量高。以Yahoo為主要代表。這類搜索引擎的缺點也是顯而易見的,由于人工的介入,使得費用增加,而且維護(hù)量大、信息量少、信息更新不及時。1.1.2 基于Robot的搜索引擎這類搜索引擎的特點是由一個稱為Robot(也叫做Spider、WebCrawler或WebWander
7、er)的機器人程序以某種策略自動地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引系統(tǒng)為搜集到的信息建立索引,由查詢接口根據(jù)用戶的查詢輸入檢索索引庫,并將查詢結(jié)果返回給用戶。它的一個重要特征是,搜索引擎要定期訪問大多數(shù)以前搜集的網(wǎng)頁,刷新索引,以反映出網(wǎng)頁的更新情況,去除一些死,網(wǎng)頁的部分容和變化情況將會反映到用戶查詢的結(jié)果中?;赗obot的搜索引擎的優(yōu)點是信息量大、更新及時、毋需人工干預(yù)?,F(xiàn)在的許多搜索引擎都屬于此類,例如Google,AltaVista等。它的缺點是返回信息過多,有很多無關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。1.1.3
8、Meta搜索引擎Meta搜索引擎也叫做元搜索引擎(MultipleSearchEngine),它的特點是本身并沒有存放網(wǎng)頁信息的數(shù)據(jù)庫,當(dāng)用戶查詢一個關(guān)鍵詞時,它把用戶的查詢請求轉(zhuǎn)換成其它搜索引擎能夠接受的命令格式,并行地訪問數(shù)個搜索引擎來查詢這個關(guān)鍵詞,并把搜索引擎返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處