資源描述:
《《信息檢索概述》PPT課件》由會員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。
1、信息檢索信息檢索研究室秦兵qinb@ir.hit.edu.cn2007我們所使用的Web搜索系統(tǒng)TheWebWebspiderIndexerIndexesSearchUser我們將學(xué)到什么內(nèi)容?基本內(nèi)容信息檢索概述及評價信息檢索模型檢索的改進(jìn)信息過濾Web信息檢索高級話題文本分類和聚類問答系統(tǒng)及自動文摘參考書RicardoBaeza-YatesandBerthierRibeiro-Neto,ModernInformationRetrieval,Addison-Wesley.1999.W.B.FrakesandR.Baeza-Yates,Informati
2、onRetrieval:DataStructures&Algorithms,EnglewoodCliffs,NJ:PrenticeHall.1992.ChristopherD.Manning,PrabhakarRaghavanandHinrichSchütze,IntroductiontoInformationRetrieval,CambridgeUniversityPress.2007.李曉明,閆宏飛等。搜索引擎原理,技術(shù)與系統(tǒng)信息檢索的概述在這一部分我們將了解到:信息檢索概念及意義信息檢索體系結(jié)構(gòu)歷史、現(xiàn)狀與困難發(fā)展趨勢國內(nèi)外主要搜索引擎信息檢索的應(yīng)
3、用信息檢索的概念及意義信息檢索定義信息檢索:從非結(jié)構(gòu)化的文檔集中找出與用戶需求相關(guān)的信息和其它相關(guān)技術(shù)的區(qū)別和數(shù)據(jù)庫的區(qū)別數(shù)據(jù)庫是結(jié)構(gòu)化數(shù)據(jù),IR的檢索結(jié)果也往往是不精確的,而不象數(shù)據(jù)庫查詢那樣正確率一定是100%。和情報檢索的區(qū)別情報檢索介紹如何利用信息檢索工具典型的信息檢索任務(wù)給定條件自然語言的文檔集合用戶的提問(Query)查找結(jié)果和query相關(guān)的經(jīng)過排序(Rank)的文檔子集信息檢索任務(wù)進(jìn)一步劃分為:信息或數(shù)據(jù)的檢索和瀏覽拉出(pulling)行為集合中的文獻(xiàn)相對靜止信息過濾信息過濾的變通方式-路由選擇推送(filtering)行為用戶查詢相對
4、靜止用戶需求:Query及Profile形式關(guān)鍵詞帶布爾操作的關(guān)鍵詞自由文本事例文檔...信息檢索樣例信息過濾(推送)樣例信息檢索系統(tǒng)IRSystemQueryStringDocumentcorpusRankedDocuments1.Doc12.Doc23.Doc3..信息檢索處理的對象非結(jié)構(gòu)化數(shù)據(jù)文本數(shù)據(jù):新聞、科技論文等網(wǎng)頁:HTML、XML多媒體數(shù)據(jù):圖像、視頻、圖形、音頻目前最主要的處理對象是互聯(lián)網(wǎng)文字圖片基于內(nèi)容的圖像查詢基于內(nèi)容的圖像查詢:目標(biāo),顏色,紋理圖像數(shù)據(jù)庫/互聯(lián)網(wǎng)用戶的提問查詢搜索引擎基于文本的圖像查詢信息存在的形式在非結(jié)構(gòu)化信息中
5、,包括文本信息和多媒體信息以文本檢索方式為主,例如:目前Google的圖片檢索技術(shù)采用的是利用圖片周圍的文字信息進(jìn)行的大多數(shù)信息都是文本形式的,沒有預(yù)先定義的格式(例如:郵件、新聞等)在企業(yè)信息化領(lǐng)域,有人統(tǒng)計(jì)認(rèn)為80%的信息是非結(jié)構(gòu)化的在信息管理向知識管理轉(zhuǎn)變的過程中,文本信息非常關(guān)鍵信息檢索的重要性由信息匱乏到信息爆炸,需要有效的檢索方式傳統(tǒng)管理軟件需要嵌入IR技術(shù)在SQL數(shù)據(jù)庫中已采用文本檢索技術(shù)select*fromEmployeewhereNamelike’%Lee%’.在LotusNotes辦公平臺上同樣也已采用文本檢索技術(shù)互聯(lián)網(wǎng)數(shù)據(jù)的增長和
6、在線文檔(如聯(lián)機(jī)用戶手冊等)的增長,向IR技術(shù)提出迫切需求檢索無處不在智能計(jì)算:從人機(jī)交互到內(nèi)容管理人機(jī)交互解決信息錄入和呈現(xiàn)的問題在大量信息進(jìn)入虛擬世界以后,更重要的問題在于如何對這些信息資源進(jìn)行有效的管理使用戶能夠方便快捷地找到想要的信息使信息保值增值產(chǎn)生新知競爭不在于擁有多少信息,而在于能夠利用多少有價值的信息,因此內(nèi)容管理至關(guān)重要信息檢索系統(tǒng)體系結(jié)構(gòu)信息檢索系統(tǒng)的體系結(jié)構(gòu)文本數(shù)據(jù)庫數(shù)據(jù)庫管理建索引索引查詢操作搜索排序排序后的文檔用戶反饋文本操作用戶界面檢出的文檔用戶需求文本提問邏輯視圖倒排文檔分詞刪除停用詞Stemming(提取詞干)為文檔建立倒
7、排索引表根據(jù)倒排索引表檢索出與提問相關(guān)的文檔將檢索出的文檔根據(jù)相關(guān)性排序Query輸入和文檔輸出相關(guān)反饋結(jié)果的可視化對query進(jìn)行變換,以改進(jìn)檢索結(jié)果Web搜索將IR技術(shù)應(yīng)用于WorldWideWeb上的HTML網(wǎng)頁和純文本相比,網(wǎng)頁的特點(diǎn)如下:必須通過在網(wǎng)上“爬行”搜集網(wǎng)頁可以開發(fā)結(jié)構(gòu)布局信息文檔的更新是不可控的可以開發(fā)網(wǎng)頁之間的鏈接結(jié)構(gòu)Web搜索系統(tǒng)提問IR系統(tǒng)排序后的文本1.第1頁2.第2頁3.第3頁..文檔語料庫WebSpiderIR的歷史與現(xiàn)狀I(lǐng)R的歷史1960-70’s:最初的信息檢索系統(tǒng)面向小型的科學(xué)文摘數(shù)據(jù)庫、法律和商業(yè)文檔檢索模型為基
8、本的布爾模型和向量空間模型CornellUniversity的Prof.Salt