資源描述:
《信息檢索技術(shù)方法及搜索引擎》由會(huì)員上傳分享,免費(fèi)在線(xiàn)閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫(kù)。
1、信息檢索技術(shù)方法及搜索引擎第一節(jié):信息檢索技術(shù)數(shù)字資源的檢索技術(shù)布爾邏輯檢索技術(shù)1截詞檢索技術(shù)2鄰近檢索技術(shù)3字段檢索技術(shù)4布爾邏輯檢索是指通過(guò)標(biāo)準(zhǔn)的布爾邏輯關(guān)系算符來(lái)表達(dá)檢索詞與檢索詞間的邏輯關(guān)系的檢索方法.主要的布爾邏輯關(guān)系詞有:邏輯與(AND),邏輯或(OR),邏輯非(NOT)1布爾邏輯檢索技術(shù)邏輯與邏輯乘:"and"或"*"表示組配方式:A*B或者AandB表示兩個(gè)概念的交叉和限定關(guān)系,只有同時(shí)含有這兩個(gè)概念的記錄才算命中信息作用:增加限制條件,即增加檢索的專(zhuān)指性,以縮小提問(wèn)范圍,減少文獻(xiàn)輸出量,提高
2、查準(zhǔn)率.邏輯或又稱(chēng)邏輯和:"or","+"組配方式:AORB或者A+B,表示檢索含有A詞,或含有B詞,或同時(shí)包含A,B兩詞的文章.作用:放寬提問(wèn)范圍,增加檢索結(jié)果,起擴(kuò)檢作用,提高查全率.邏輯非又稱(chēng)邏輯差:"not""-"組配方式:A-B,表示檢索出含有A詞而不含有B詞的文章.作用:邏輯非用于排除不希望出現(xiàn)的檢索詞,它和"*"的作用相似,能夠縮小命中文獻(xiàn)范圍,增強(qiáng)檢索的準(zhǔn)確性.例如檢索:"打印機(jī)驅(qū)動(dòng)程序"查詢(xún)關(guān)鍵詞:打印機(jī),驅(qū)動(dòng)程序檢索表達(dá)式:打印機(jī)AND驅(qū)動(dòng)程序例如檢索:"微型計(jì)算機(jī)"方面的有關(guān)信息查詢(xún)關(guān)鍵
3、詞:微型計(jì)算機(jī),微機(jī)檢索表達(dá)式:微型計(jì)算機(jī)OR微機(jī)布爾邏輯檢索舉例布爾運(yùn)算符優(yōu)先級(jí)比較有括號(hào)時(shí):括號(hào)內(nèi)的先執(zhí)行;無(wú)括號(hào)時(shí):NOT>AND>OR例:檢索"唐宋詩(shī)歌"的有關(guān)信息.關(guān)鍵詞:唐,宋,詩(shī)歌;檢索表達(dá)式:(唐OR宋)AND詩(shī)歌;唐AND詩(shī)歌OR宋AND詩(shī)歌;錯(cuò)誤表達(dá)式:唐OR宋AND詩(shī)歌;唐AND宋AND詩(shī)歌;唐OR宋OR詩(shī)歌;唐AND宋OR詩(shī)歌;布爾邏輯運(yùn)算符優(yōu)先級(jí)請(qǐng)注意在不同的數(shù)據(jù)庫(kù)中,所使用的邏輯符號(hào)可能是不同的,有的用"and,or,not"有的用"*,+,-".一些檢索工具會(huì)完全省略任何符號(hào)和關(guān)
4、系,直接把布爾邏輯關(guān)系隱含在菜單中.一些網(wǎng)絡(luò)檢索工具如搜索引擎甚至用"〕,,,-"(即空格,逗號(hào),減號(hào))來(lái)表示.主要應(yīng)用于西文數(shù)字資源的檢索定義:是指在檢索式中用專(zhuān)門(mén)的符號(hào)(截詞符號(hào))表示檢索詞的某一部分允許有一定的詞形變化.作用:主要是提高查全率截詞符一般用""或"*"表示2截詞檢索技術(shù)截詞位置按截詞位置可分為前截詞,后截詞,前后截詞和中間截詞;按截?cái)嘧址麛?shù)的不同,可分為有限截?cái)嗪蜔o(wú)限截?cái)?右截詞,又稱(chēng)后截詞,前方一致.允許檢索詞尾有若干變化.例如comput*將檢索出computer,computing,
5、computerised,computerized,computerization等結(jié)果.中間截詞,又稱(chēng)前后方一致.允許檢索詞中間有若干變化.例如wom*n,檢索到woman,women的結(jié)果.英美的不同拼法,defen*e可同時(shí)檢出defence和defense的結(jié)果.左截詞,又稱(chēng)前截詞,后方一致,允許檢索詞前有若干變化,例如*physics就可檢索到physics,astrophysics,biophysics,chemophysics,geophysics等詞的結(jié)果.前后截詞:詞干的前后各有一個(gè)截詞符,
6、允許檢索詞的前端和尾部各有若干變化形式.如computer可檢索computer,computers,computerize,computerized,computerization,minicomputer,minicomputers,microcomputer,microcomputers等結(jié)果.請(qǐng)注意在不同的數(shù)據(jù)庫(kù)和聯(lián)機(jī)檢索系統(tǒng)中,所使用的截詞符號(hào)沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),有的用"",有的用"*",有的用"#",用的用"$"等.即便常用的""和"*"在不同的數(shù)據(jù)庫(kù)中其用法也是不一定相同的.在允許截詞的檢索工具中,
7、一般是指右截詞,部分支持中間截詞,左截詞比較少見(jiàn).我們將要使用的一些數(shù)據(jù)庫(kù),一般用"*"代表一個(gè)字符串,用""代表任意一個(gè)字符.鄰近檢索又稱(chēng)位置檢索,主要是通過(guò)檢索式中的專(zhuān)門(mén)符號(hào)來(lái)規(guī)定檢索詞在結(jié)果中的相對(duì)位置.例如檢索"生物防治"的文獻(xiàn),若用檢索式"biological*control"檢索,則會(huì)將"抑制生物"(controlbiological)的文獻(xiàn)也查出來(lái),這顯然不是所需文獻(xiàn).主要有相鄰位置算符(W),(nW),(N),(nN),句子位置算符(S),字段算符(F).3鄰近檢索技術(shù)(W)算符(W)是wit
8、h(word)的縮寫(xiě),表示此算符兩側(cè)的檢索詞必須按此前后順序相鄰排列,詞序不可變,且兩詞之間不許有其他的詞或字母,但允許有一空格或標(biāo)點(diǎn)符號(hào).如biological(W)control相當(dāng)于檢索biologicalcontrolCD(W)ROM相當(dāng)于檢索CDROM或CD-ROM.(nW)算符(nW)是nwords的縮寫(xiě),表示此算符兩側(cè)的檢索詞之間允許插入最多n個(gè)詞,且詞序不可變.如wear(1W)ma