網絡flash爬蟲搜索方法比較研究

網絡flash爬蟲搜索方法比較研究

ID:12582257

大小:27.50 KB

頁數(shù):6頁

時間:2018-07-17

網絡flash爬蟲搜索方法比較研究_第1頁
網絡flash爬蟲搜索方法比較研究_第2頁
網絡flash爬蟲搜索方法比較研究_第3頁
網絡flash爬蟲搜索方法比較研究_第4頁
網絡flash爬蟲搜索方法比較研究_第5頁
資源描述:

《網絡flash爬蟲搜索方法比較研究》由會員上傳分享,免費在線閱讀,更多相關內容在行業(yè)資料-天天文庫。

1、網絡Flash爬蟲搜索方法比較研究  Flash資源以其生動、易于交互和制作簡單等特點越來越受到人們的追捧。但是隨著網絡技術的快速發(fā)展,F(xiàn)lash資源在網絡中的存在形式變得格外復雜,傳統(tǒng)搜索引擎對網絡Flash資源的獲取不能到達令人滿意的水平。作為搜索引擎的基礎組成部分,網絡爬蟲的作用必須得到人們足夠的重視,所以,改進網絡爬蟲的搜索方法越來越受到人們的重視。本文提出一種新的搜索方法,與傳統(tǒng)爬蟲的基本組成結構和搜索結果進行比較,驗證新搜索方法的優(yōu)勢?! ?網絡Flash資源的優(yōu)點及存在形式  網絡Flash資源的優(yōu)點  1)Flash動畫通常比

2、較短。因為只占有有限的網絡帶寬,通常是幾兆字節(jié)大小,F(xiàn)lash動畫平均時間比起傳統(tǒng)動畫會更短一些?! ?)Flash動畫能夠與觀看者產生互動,滿足觀看者更多需求。觀看者可以通過一定的操作來改變動畫的播放進程,傳統(tǒng)的動畫并不具有這樣的特性?! ?)Flash動畫的制作相對傳統(tǒng)動畫更簡易。Flash動畫制作愛好者能夠相對比較容易地轉變?yōu)橹谱髡撸麄冎恍枰莆找恍┡c動畫制作相關的軟件就可以嘗試制作Flash動畫。Flash動畫的制作需要在電腦上進行,F(xiàn)lash制作軟件需要的條件比較簡單,對硬件要求也比較低,所以不需要較大的投入。  4)Flash動

3、畫占用空間較小。Flash動畫可以使用矢量圖形,所以使得文件所用空間較?。籉lash動畫完成后可以上傳到網上,互聯(lián)網用戶可以欣賞和下載,能夠以較快的速度在網絡中傳播,這樣的聯(lián)盟一個優(yōu)點讓Flash動畫迅速在網絡上風靡起來。用傳統(tǒng)方法制作的一些動畫,因為占用的空間比較大,在網絡上傳播起來就比較困難。  5)Flash動畫受制作者水平和技術等原因的限制。不可否認的是,互聯(lián)網上的不少Flash動畫還是比較粗糙、簡單的,但是Flash動畫的確有還在發(fā)展一些新的視覺效果,如三維效果,相信未來將有新的發(fā)展。它比起傳統(tǒng)的動畫來說更容易和智能,更符合大眾口味

4、?! ?)Flash動畫大大減少人力、材料資源的消耗,存儲方式更加方便,生產成本大大降低。與此同時,F(xiàn)lash動畫在制作周期上相比傳統(tǒng)動畫也會大大減少,對于相同時長的動畫,用Flash技術來制作所需要的時間將會大大縮短,而用傳統(tǒng)方法制作通?;ㄙM的時間要更長一些?! 【W絡Flash資源的存在形式Flash資源通常存放在Web服務器中,往往以獨立的文件形式存在。傳統(tǒng)的方式包括兩種?! 〉谝环N是嵌入到網頁中作為網頁組成的一部分。Flash動畫嵌入網頁的方法很多,情況比較復雜,目前主要是利用標簽、腳本、函數(shù)或對象將Flash資源嵌入網頁,使用網頁瀏覽

5、器解析網頁的HTTP標簽和腳本,再用相應的形式顯示、播放Flash動畫。  第二種是通過網頁中的錨文本鏈接。網頁中用錨文本鏈接Flash動畫很簡單,可以自由下載。然而,通過Java-Script腳本展現(xiàn)的Flash動畫資源作為一種豐富的存在形式,人們對它的研究還比較少?! 【W絡爬蟲的定義和工作原理  網絡爬蟲的定義網絡爬蟲是搜索引擎系統(tǒng)結構中搜索器的俗稱,又叫網絡蜘蛛,是一個自動搜集網頁的系統(tǒng)程序。它的功能是晝夜不停地在互聯(lián)網中爬行,收集信息,通常從首頁開始,讀取網頁信息,找到網頁中的其他鏈接地址,繼而找到下一個網頁,再在新的網頁中找到新的鏈

6、接地址。這樣循環(huán)往復,目的是把該網站的所有網頁抓取完畢。它負責搜集新信息,更新舊信息?! 【W絡爬蟲的工作原理當蜘蛛抓取網頁,一般有兩種信息收集策略。  1)以URL集合作為起始,沿著這些URL,以寬度優(yōu)先、深度優(yōu)先,循環(huán)往復地在Web中收集信息。它沿著網頁中的超鏈接爬行到其他網頁,循環(huán)處理,并把搜集到的全部網頁保存起來。這些起始URL通常是一些很正規(guī)且包含很多鏈接的站點?! ?)網站空間根據(jù)域名、IP地址等劃分,每個網絡蜘蛛負責一個子空間的窮舉搜索。爬蟲搜集多種多樣的信息,包括網頁文件,有的網絡爬蟲能夠處理文檔,甚至是數(shù)據(jù)庫。爬蟲將收集所有過

7、濾字符格式的文檔,從全文數(shù)據(jù)提取文本。每個文檔都與全文文件有對應關系,包括標題、網頁的URL、大小、類型和其他屬性以及文本內容。  網絡爬蟲面臨的問題  截止2016年1月底,中國互聯(lián)網上網頁數(shù)量超過1500億個,靜態(tài)網頁數(shù)占%,動態(tài)網頁數(shù)占%,其中有大量頁面是重復的,每個網頁的字節(jié)數(shù)大約為50KB。關于網頁數(shù)量和字節(jié)數(shù)的增長率,2016年較之2016年增幅分別為%和%。動態(tài)網頁的存在,客戶端、服務器端腳本語言的使用,使得指向相同頁面的URL數(shù)量出現(xiàn)爆炸式增長?! ∫陨咸卣魇沟镁W絡爬蟲面臨一定的困難:首先,海量的網頁信息使得網絡爬蟲在有限的時

8、間內只能爬行少量網頁;其次,動態(tài)網頁的一些技術原因使得網絡爬蟲無法爬行它們。僅在中國就存在如此之多的網頁,假如考慮全世界的網頁,那么,世界上是不存在能索引互聯(lián)網上所

當前文檔最多預覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學公式或PPT動畫的文件,查看預覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內容,確認文檔內容符合您的需求后進行下載,若出現(xiàn)內容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網絡波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。