優(yōu)化搜索引擎的檢索效果

優(yōu)化搜索引擎的檢索效果

ID:10848595

大?。?5.50 KB

頁數(shù):9頁

時間:2018-07-08

優(yōu)化搜索引擎的檢索效果_第1頁
優(yōu)化搜索引擎的檢索效果_第2頁
優(yōu)化搜索引擎的檢索效果_第3頁
優(yōu)化搜索引擎的檢索效果_第4頁
優(yōu)化搜索引擎的檢索效果_第5頁
資源描述:

《優(yōu)化搜索引擎的檢索效果》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫

1、優(yōu)化搜索引擎的檢索效果互聯(lián)網(wǎng)是當今世界上規(guī)模最大,信息更新最快的知識庫,在終身學習及學教并重理念日益深化的今天,它已經(jīng)超越課本成為最重要的學習資料來源.為了在這個浩瀚的知識海洋中有效獲取學習資料,無論是教師還是學生都應(yīng)當具備熟練使用搜索引擎的能力.搜索引擎其實就是一個專門提供信息檢索服務(wù)的網(wǎng)站.Google作為全球規(guī)模最大的搜索引擎,目前它所收錄的網(wǎng)頁已超過40億.百度作為全球規(guī)模最大的中文搜索引擎,所收錄的中文網(wǎng)頁也已超過3億.不可否認,搜索引擎在信息檢索方面給我們帶來了極大的方便,然而我們在使用搜索引擎時,卻總有這樣的體驗:檢索到的網(wǎng)頁令人目不暇接,有用的鏈

2、接卻往往夾雜在一大堆無效的鏈接中,要翻遍所有的網(wǎng)頁才能找到真正需要的信息.這種狀況嚴重影響了我們在互聯(lián)網(wǎng)上獲取知識的效率和熱情.怎樣使我們的搜索更準確和高效呢?筆者認為除了期待搜索引擎在現(xiàn)有技術(shù)水平上實現(xiàn)大幅度突破以外,更為實際的一面是鍛煉我們個人的搜索技巧,在了解搜索原理的基礎(chǔ)上充分發(fā)揮搜索引擎的檢索能力.m,搜索引擎的原理搜索引擎的基本工作過程是根據(jù)用戶輸入的關(guān)鍵詞進行檢索,然后按照順序?qū)z索結(jié)果列表顯示.檢索過程是在文檔庫中完成的,也就是每一個搜索引擎都有一個獨立的文檔庫,文檔庫中存儲著互聯(lián)網(wǎng)上所有被檢索過的網(wǎng)頁的一個復(fù)制品,通常稱為"網(wǎng)頁快照".文檔庫中

3、的網(wǎng)頁會定期更新,一般為每30天一次.更新是通過一種稱為"蜘蛛"的程序到互聯(lián)網(wǎng)上進行檢索,凡是被檢索到中小學信息技術(shù)教育0L.一教學應(yīng)用搜索引擎的的新網(wǎng)頁就會以快照的形式存入文檔庫,相應(yīng)的舊網(wǎng)頁就會從文檔庫中刪除.如果文檔庫更新不全面或者不及時,就會出現(xiàn)廢棄網(wǎng)頁存儲在文檔庫中的情況.如果這些網(wǎng)頁恰好以檢索結(jié)果的形式顯示給我們,就出現(xiàn)了所謂的"空"鏈接,點擊這些鏈接瀏覽器就會提示"該頁無法顯示".搜索引擎檢索文檔庫的過程實際上是一個關(guān)鍵詞匹配的過程.文檔庫中的每一個網(wǎng)頁都對應(yīng)一個索引表,索引表中存儲的是從網(wǎng)頁中抽取出來的大量關(guān)鍵詞.搜索引擎在檢索時就是使我們輸入的

4、關(guān)鍵詞與網(wǎng)頁索引表中的關(guān)鍵詞進行比較,凡是達到一定匹配程度的網(wǎng)頁都會作為檢索結(jié)果返回.例如,網(wǎng)頁的索引表為{A,B,C,D,E,F…},如果用戶的檢索關(guān)鍵詞為"A"和"D",那么上述網(wǎng)頁就是符合條件的一個檢索結(jié)果.搜索引擎的檢索結(jié)果是經(jīng)過排序后顯示的.排序的標準主要由關(guān)鍵詞匹配程度和網(wǎng)頁等級兩個參數(shù)決定.關(guān)鍵詞匹配程度是指用戶輸入的關(guān)鍵詞能夠得到匹檢索效果口黃勇配的個數(shù).網(wǎng)頁等級是指一個網(wǎng)頁被其他網(wǎng)頁引用的程度(引用就是從其他網(wǎng)頁有超鏈接指向這個網(wǎng)頁).一般來說,一個網(wǎng)頁被其他網(wǎng)頁引用的次數(shù)越多,引用這個網(wǎng)頁的其他網(wǎng)頁的等級越高,那么這個網(wǎng)頁的等級就越高.只有在

5、關(guān)鍵詞匹配程度和網(wǎng)頁等級都很高的情況下,網(wǎng)頁才會排到前面,因此我們就會明白,為什么有時我們感覺最匹配的網(wǎng)頁卻排在不很匹配的網(wǎng)頁后面,就是因為后者比前者的網(wǎng)頁等級更高.所以,對于重要的搜索結(jié)果我們應(yīng)至少查看2~3頁,以免錯過了對我們來說最有意義的網(wǎng)頁.二,提煉關(guān)鍵詞根據(jù)上面所述的原理,我們會發(fā)現(xiàn),在現(xiàn)有搜索引擎技術(shù)的基礎(chǔ)上提高它的檢索效果,就是盡量提高關(guān)鍵詞的匹配程度.因此,我們需要對關(guān)鍵詞進行提煉.(1)關(guān)鍵詞的成分搜索引擎不限制關(guān)鍵詞的內(nèi)容,因此,任何字,詞,句都可以作為關(guān)鍵詞來使用.但為了提高教學應(yīng)用檢索的效果,字和句應(yīng)盡量少用;對于詞,最好能夠組合使用;不

6、要把意義模糊或太過常用的單個詞(如"公式","信息技術(shù)"等)作為關(guān)鍵詞,因為這些詞極容易匹配,單獨使用它們無疑會大量增加無關(guān)網(wǎng)頁的數(shù)量.(2)使用長關(guān)鍵詞如果被檢索的問題可以用一個結(jié)構(gòu)緊湊的長詞組來表達,那么應(yīng)首先考慮使用長詞組作為關(guān)鍵詞(如"是距離地球最近的恒星","中小學信息技術(shù)課程教案"),因為與使用多關(guān)鍵詞相比,使用單一的長關(guān)鍵詞更能顯著提高匹配的準確率.使用長詞組作關(guān)鍵詞時需要加上中文的或者英文的引號,如一是距離地球最近的恒星….加引號可以保證長詞組被作為一個完整的關(guān)鍵詞去匹配,否則,搜索引擎會把長詞組分解成一系列關(guān)鍵詞.例如,不加引號時,"是距離地球

7、最近的恒星"會被分解為"距離","地球","最近","恒星"四個詞進行檢索,在Google中將返回13000項檢索結(jié)果,在百度中將返回1220項檢索結(jié)果,其中大部分結(jié)果都不能給出"太陽是距離地球最近的恒星"這個答案.加上引號后,檢索結(jié)果則迅速縮減,Google返回75項結(jié)果,百度返回8項結(jié)果,每一項結(jié)果都能夠給出我們需要的答案.(3)使用多關(guān)鍵詞如果被檢索的問題不易于用一個結(jié)構(gòu)緊湊的長詞組來表達,這時就應(yīng)考慮通過增加關(guān)鍵詞的個數(shù)來提高檢索的效率.以檢索數(shù)學排列公式為例,如果我們以"排列"或者"排列的公式"作為關(guān)鍵詞,則會得到一大堆無關(guān)的網(wǎng)頁.這時增加關(guān)鍵詞的個數(shù)

8、,使用"排列組合二項式定

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。