資源描述:
《網(wǎng)絡flash爬蟲搜索方法比較研究》由會員上傳分享,免費在線閱讀,更多相關內(nèi)容在行業(yè)資料-天天文庫。
1、網(wǎng)絡Flash爬蟲搜索方法比較研究 Flash資源以其生動、易于交互和制作簡單等特點越來越受到人們的追捧。但是隨著網(wǎng)絡技術的快速發(fā)展,F(xiàn)lash資源在網(wǎng)絡中的存在形式變得格外復雜,傳統(tǒng)搜索引擎對網(wǎng)絡Flash資源的獲取不能到達令人滿意的水平。作為搜索引擎的基礎組成部分,網(wǎng)絡爬蟲的作用必須得到人們足夠的重視,所以,改進網(wǎng)絡爬蟲的搜索方法越來越受到人們的重視。本文提出一種新的搜索方法,與傳統(tǒng)爬蟲的基本組成結(jié)構和搜索結(jié)果進行比較,驗證新搜索方法的優(yōu)勢?! ?網(wǎng)絡Flash資源的優(yōu)點及存在形式 網(wǎng)絡Flash資源的優(yōu)點 1)Flash動畫通常比
2、較短。因為只占有有限的網(wǎng)絡帶寬,通常是幾兆字節(jié)大小,F(xiàn)lash動畫平均時間比起傳統(tǒng)動畫會更短一些?! ?)Flash動畫能夠與觀看者產(chǎn)生互動,滿足觀看者更多需求。觀看者可以通過一定的操作來改變動畫的播放進程,傳統(tǒng)的動畫并不具有這樣的特性?! ?)Flash動畫的制作相對傳統(tǒng)動畫更簡易。Flash動畫制作愛好者能夠相對比較容易地轉(zhuǎn)變?yōu)橹谱髡撸麄冎恍枰莆找恍┡c動畫制作相關的軟件就可以嘗試制作Flash動畫。Flash動畫的制作需要在電腦上進行,F(xiàn)lash制作軟件需要的條件比較簡單,對硬件要求也比較低,所以不需要較大的投入。 4)Flash動
3、畫占用空間較小。Flash動畫可以使用矢量圖形,所以使得文件所用空間較??;Flash動畫完成后可以上傳到網(wǎng)上,互聯(lián)網(wǎng)用戶可以欣賞和下載,能夠以較快的速度在網(wǎng)絡中傳播,這樣的聯(lián)盟一個優(yōu)點讓Flash動畫迅速在網(wǎng)絡上風靡起來。用傳統(tǒng)方法制作的一些動畫,因為占用的空間比較大,在網(wǎng)絡上傳播起來就比較困難。 5)Flash動畫受制作者水平和技術等原因的限制。不可否認的是,互聯(lián)網(wǎng)上的不少Flash動畫還是比較粗糙、簡單的,但是Flash動畫的確有還在發(fā)展一些新的視覺效果,如三維效果,相信未來將有新的發(fā)展。它比起傳統(tǒng)的動畫來說更容易和智能,更符合大眾口味
4、。 6)Flash動畫大大減少人力、材料資源的消耗,存儲方式更加方便,生產(chǎn)成本大大降低。與此同時,F(xiàn)lash動畫在制作周期上相比傳統(tǒng)動畫也會大大減少,對于相同時長的動畫,用Flash技術來制作所需要的時間將會大大縮短,而用傳統(tǒng)方法制作通常花費的時間要更長一些?! 【W(wǎng)絡Flash資源的存在形式Flash資源通常存放在Web服務器中,往往以獨立的文件形式存在。傳統(tǒng)的方式包括兩種?! 〉谝环N是嵌入到網(wǎng)頁中作為網(wǎng)頁組成的一部分。Flash動畫嵌入網(wǎng)頁的方法很多,情況比較復雜,目前主要是利用標簽、腳本、函數(shù)或?qū)ο髮lash資源嵌入網(wǎng)頁,使用網(wǎng)頁瀏覽
5、器解析網(wǎng)頁的HTTP標簽和腳本,再用相應的形式顯示、播放Flash動畫?! 〉诙N是通過網(wǎng)頁中的錨文本鏈接。網(wǎng)頁中用錨文本鏈接Flash動畫很簡單,可以自由下載。然而,通過Java-Script腳本展現(xiàn)的Flash動畫資源作為一種豐富的存在形式,人們對它的研究還比較少。 網(wǎng)絡爬蟲的定義和工作原理 網(wǎng)絡爬蟲的定義網(wǎng)絡爬蟲是搜索引擎系統(tǒng)結(jié)構中搜索器的俗稱,又叫網(wǎng)絡蜘蛛,是一個自動搜集網(wǎng)頁的系統(tǒng)程序。它的功能是晝夜不停地在互聯(lián)網(wǎng)中爬行,收集信息,通常從首頁開始,讀取網(wǎng)頁信息,找到網(wǎng)頁中的其他鏈接地址,繼而找到下一個網(wǎng)頁,再在新的網(wǎng)頁中找到新的鏈
6、接地址。這樣循環(huán)往復,目的是把該網(wǎng)站的所有網(wǎng)頁抓取完畢。它負責搜集新信息,更新舊信息?! 【W(wǎng)絡爬蟲的工作原理當蜘蛛抓取網(wǎng)頁,一般有兩種信息收集策略?! ?)以URL集合作為起始,沿著這些URL,以寬度優(yōu)先、深度優(yōu)先,循環(huán)往復地在Web中收集信息。它沿著網(wǎng)頁中的超鏈接爬行到其他網(wǎng)頁,循環(huán)處理,并把搜集到的全部網(wǎng)頁保存起來。這些起始URL通常是一些很正規(guī)且包含很多鏈接的站點?! ?)網(wǎng)站空間根據(jù)域名、IP地址等劃分,每個網(wǎng)絡蜘蛛負責一個子空間的窮舉搜索。爬蟲搜集多種多樣的信息,包括網(wǎng)頁文件,有的網(wǎng)絡爬蟲能夠處理文檔,甚至是數(shù)據(jù)庫。爬蟲將收集所有過
7、濾字符格式的文檔,從全文數(shù)據(jù)提取文本。每個文檔都與全文文件有對應關系,包括標題、網(wǎng)頁的URL、大小、類型和其他屬性以及文本內(nèi)容?! 【W(wǎng)絡爬蟲面臨的問題 截止2016年1月底,中國互聯(lián)網(wǎng)上網(wǎng)頁數(shù)量超過1500億個,靜態(tài)網(wǎng)頁數(shù)占%,動態(tài)網(wǎng)頁數(shù)占%,其中有大量頁面是重復的,每個網(wǎng)頁的字節(jié)數(shù)大約為50KB。關于網(wǎng)頁數(shù)量和字節(jié)數(shù)的增長率,2016年較之2016年增幅分別為%和%。動態(tài)網(wǎng)頁的存在,客戶端、服務器端腳本語言的使用,使得指向相同頁面的URL數(shù)量出現(xiàn)爆炸式增長?! ∫陨咸卣魇沟镁W(wǎng)絡爬蟲面臨一定的困難:首先,海量的網(wǎng)頁信息使得網(wǎng)絡爬蟲在有限的時
8、間內(nèi)只能爬行少量網(wǎng)頁;其次,動態(tài)網(wǎng)頁的一些技術原因使得網(wǎng)絡爬蟲無法爬行它們。僅在中國就存在如此之多的網(wǎng)頁,假如考慮全世界的網(wǎng)頁,那么,世界上是不存在能索引互聯(lián)網(wǎng)上所