信息檢索技術方法及搜索引擎

信息檢索技術方法及搜索引擎

ID:13947126

大?。?2.50 KB

頁數(shù):15頁

時間:2018-07-25

信息檢索技術方法及搜索引擎_第1頁
信息檢索技術方法及搜索引擎_第2頁
信息檢索技術方法及搜索引擎_第3頁
信息檢索技術方法及搜索引擎_第4頁
信息檢索技術方法及搜索引擎_第5頁
資源描述:

《信息檢索技術方法及搜索引擎》由會員上傳分享,免費在線閱讀,更多相關內容在行業(yè)資料-天天文庫。

1、信息檢索技術方法及搜索引擎信息檢索技術方法及搜索引擎第一節(jié):信息檢索技術數(shù)字資源的檢索技術布爾邏輯檢索技術1截詞檢索技術2鄰近檢索技術3字段檢索技術4布爾邏輯檢索是指通過標準的布爾邏輯關系算符來表達檢索詞與檢索詞間的邏輯關系的檢索方法.主要的布爾邏輯關系詞有:邏輯與(AND),邏輯或(OR),邏輯非(NOT)1布爾邏輯檢索技術邏輯與邏輯乘:"and"或"*"表示組配方式:A*B或者AandB表示兩個概念的交叉和限定關系,只有同時含有這兩個概念的記錄才算命中信息作用:增加限制條件,即增加檢索的專指性,以縮小提問范圍,減少文獻輸出量,提

2、高查準率.邏輯或又稱邏輯和:"or","+"組配方式:AORB或者A+B,表示檢索含有A詞,或含有B詞,或同時包含A,B兩詞的文章.作用:放寬提問范圍,增加檢索結果,起擴檢作用,提高查全率.邏輯非又稱邏輯差:"not""-"組配方式:A-B,表示檢索出含有A詞而不含有B詞的文章.作用:邏輯非用于排除不希望出現(xiàn)的檢索詞,它和"*"的作用相似,能夠縮小命中文獻范圍,增強檢索的準確性.例如檢索:"打印機驅動程序"查詢關鍵詞:打印機,驅動程序檢索表達式:打印機AND驅動程序例如檢索:"微型計算機"方面的有關信息查詢關鍵詞:微型計算機,微機檢

3、索表達式:微型計算機OR微機布爾邏輯檢索舉例布爾運算符優(yōu)先級比較有括號時:括號內的先執(zhí)行;無括號時:NOT>AND>OR例:檢索"唐宋詩歌"的有關信息.關鍵詞:唐,宋,詩歌;檢索表達式:(唐OR宋)AND詩歌;唐AND詩歌OR宋AND詩歌;錯誤表達式:唐OR宋AND詩歌;唐AND宋AND詩歌;唐OR宋OR詩歌;唐AND宋OR詩歌;布爾邏輯運算符優(yōu)先級請注意在不同的數(shù)據(jù)庫中,所使用的邏輯符號可能是不同的,有的用"and,or,not"有的用"*,+,-".一些檢索工具會完全省略任何符號和關系,直接把布爾邏輯關系隱含在菜單中.一些網絡檢

4、索工具如搜索引擎甚至用"〕,,,-"(即空格,逗號,減號)來表示.主要應用于西文數(shù)字資源的檢索定義:是指在檢索式中用專門的符號(截詞符號)表示檢索詞的某一部分允許有一定的詞形變化.作用:主要是提高查全率截詞符一般用""或"*"表示2截詞檢索技術截詞位置按截詞位置可分為前截詞,后截詞,前后截詞和中間截詞;按截斷字符數(shù)的不同,可分為有限截斷和無限截斷.右截詞,又稱后截詞,前方一致.允許檢索詞尾有若干變化.例如comput*將檢索出computer,computing,computerised,computerized,computeri

5、zation等結果.中間截詞,又稱前后方一致.允許檢索詞中間有若干變化.例如wom*n,檢索到woman,women的結果.英美的不同拼法,defen*e可同時檢出defence和defense的結果.左截詞,又稱前截詞,后方一致,允許檢索詞前有若干變化,例如*physics就可檢索到physics,astrophysics,biophysics,chemophysics,geophysics等詞的結果.前后截詞:詞干的前后各有一個截詞符,允許檢索詞的前端和尾部各有若干變化形式.如computer可檢索computer,comput

6、ers,computerize,computerized,computerization,minicomputer,minicomputers,microcomputer,microcomputers等結果.請注意在不同的數(shù)據(jù)庫和聯(lián)機檢索系統(tǒng)中,所使用的截詞符號沒有統(tǒng)一的標準,有的用"",有的用"*",有的用"#",用的用"$"等.即便常用的""和"*"在不同的數(shù)據(jù)庫中其用法也是不一定相同的.在允許截詞的檢索工具中,一般是指右截詞,部分支持中間截詞,左截詞比較少見.我們將要使用的一些數(shù)據(jù)庫,一般用"*"代表一個字符串,用""代表任意

7、一個字符.鄰近檢索又稱位置檢索,主要是通過檢索式中的專門符號來規(guī)定檢索詞在結果中的相對位置.例如檢索"生物防治"的文獻,若用檢索式"biological*control"檢索,則會將"抑制生物"(controlbiological)的文獻也查出來,這顯然不是所需文獻.主要有相鄰位置算符(W),(nW),(N),(nN),句子位置算符(S),字段算符(F).3鄰近檢索技術(W)算符(W)是with(word)的縮寫,表示此算符兩側的檢索詞必須按此前后順序相鄰排列,詞序不可變,且兩詞之間不許有其他的詞或字母,但允許有一空格或標點符號.如

8、biological(W)control相當于檢索biologicalcontrolCD(W)ROM相當于檢索CDROM或CD-ROM.(nW)算符(nW)是nwords的縮寫,表示此算符兩側的檢索詞之間允許插入最多n個詞,且詞序不可

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。