資源描述:
《網(wǎng)絡(luò)flash爬蟲搜索方法比較研究》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。
1、網(wǎng)絡(luò)Flash爬蟲搜索方法比較研究網(wǎng)絡(luò)Flash爬蟲搜索方法比較研究Flash資源以其生動(dòng)、易于交互和制作簡單等特點(diǎn)越來越受到人們的追捧。但是隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,F(xiàn)lash資源在網(wǎng)絡(luò)中的存在形式變得格外復(fù)雜,傳統(tǒng)搜索引擎對網(wǎng)絡(luò)Flash資源的獲取不能到達(dá)令人滿意的水平。作為搜索引擎的基礎(chǔ)組成部分,網(wǎng)絡(luò)爬蟲的作用必須得到人們足夠的重視,所以,改進(jìn)網(wǎng)絡(luò)爬蟲的搜索方法越來越受到人們的重視。本文提出一種新的搜索方法,與傳統(tǒng)爬蟲的基本組成結(jié)構(gòu)和搜索結(jié)果進(jìn)行比較,驗(yàn)證新搜索方法的優(yōu)勢。 1網(wǎng)絡(luò)Flash資源的優(yōu)點(diǎn)及存在形式 網(wǎng)絡(luò)Flash資源的優(yōu)點(diǎn) 1)F
2、lash動(dòng)畫通常比較短。因?yàn)橹徽加杏邢薜木W(wǎng)絡(luò)帶寬,通常是幾兆字節(jié)大小,F(xiàn)lash動(dòng)畫平均時(shí)間比起傳統(tǒng)動(dòng)畫會(huì)更短一些?! ?)Flash動(dòng)畫能夠與觀看者產(chǎn)生互動(dòng),滿足觀看者更多需求。觀看者可以通過一定的操作來改變動(dòng)畫的播放進(jìn)程,傳統(tǒng)的動(dòng)畫并不具有這樣的特性?! ?)Flash動(dòng)畫的制作相對傳統(tǒng)動(dòng)畫更簡易。Flash動(dòng)畫制作愛好者能夠相對比較容易地轉(zhuǎn)變?yōu)橹谱髡?,他們只需要掌握一些與動(dòng)畫制作相關(guān)的軟件就可以嘗試制作Flash動(dòng)畫。Flash動(dòng)畫的制作需要在電腦上進(jìn)行,F(xiàn)lash制作軟件需要的條件比較簡單,對硬件要求也比較低,所以不需要較大的投入?! ?)Fla
3、sh動(dòng)畫占用空間較小。Flash動(dòng)畫可以使用矢量圖形,所以使得文件所用空間較?。籉lash動(dòng)畫完成后可以上傳到網(wǎng)上,互聯(lián)網(wǎng)用戶可以欣賞和下載,能夠以較快的速度在網(wǎng)絡(luò)中傳播,這樣的本文由.LBED)、腳本、函數(shù)或?qū)ο髮lash資源嵌入網(wǎng)頁,使用網(wǎng)頁瀏覽器解析網(wǎng)頁的HTTP標(biāo)簽和腳本,再用相應(yīng)的形式顯示、播放Flash動(dòng)畫?! 〉诙N是通過網(wǎng)頁中的錨文本鏈接。網(wǎng)頁中用錨文本鏈接Flash動(dòng)畫很簡單,可以自由下載。然而,通過Java-Script腳本展現(xiàn)的Flash動(dòng)畫資源作為一種豐富的存在形式,人們對它的研究還比較少?! ?網(wǎng)絡(luò)爬蟲的定義和工作原理 網(wǎng)絡(luò)
4、爬蟲的定義網(wǎng)絡(luò)爬蟲是搜索引擎系統(tǒng)結(jié)構(gòu)中搜索器的俗稱,又叫網(wǎng)絡(luò)蜘蛛,是一個(gè)自動(dòng)搜集網(wǎng)頁的系統(tǒng)程序。它的功能是晝夜不停地在互聯(lián)網(wǎng)中爬行,收集信息,通常從首頁開始,讀取網(wǎng)頁信息,找到網(wǎng)頁中的其他鏈接地址,繼而找到下一個(gè)網(wǎng)頁,再在新的網(wǎng)頁中找到新的鏈接地址。這樣循環(huán)往復(fù),目的是把該網(wǎng)站的所有網(wǎng)頁抓取完畢。它負(fù)責(zé)搜集新信息,更新舊信息?! 【W(wǎng)絡(luò)爬蟲的工作原理當(dāng)蜘蛛抓取網(wǎng)頁,一般有兩種信息收集策略?! ?)以URL集合作為起始,沿著這些URL,以寬度優(yōu)先、深度優(yōu)先,循環(huán)往復(fù)地在L、JSP、ASPX等格式),有的網(wǎng)絡(luò)爬蟲能夠處理文檔(如Word、Excel、PPT等)
5、,甚至是數(shù)據(jù)庫。爬蟲將收集所有過濾字符格式的文檔,從全文數(shù)據(jù)提取文本。每個(gè)文檔都與全文文件有對應(yīng)關(guān)系,包括標(biāo)題、網(wǎng)頁的URL、大小、類型和其他屬性以及文本內(nèi)容。 3網(wǎng)絡(luò)爬蟲面臨的問題 截止2014年1月底,中國互聯(lián)網(wǎng)上網(wǎng)頁數(shù)量超過1500億個(gè),靜態(tài)網(wǎng)頁數(shù)占59.78%,動(dòng)態(tài)網(wǎng)頁數(shù)占40.22%,其中有大量頁面是重復(fù)的,每個(gè)網(wǎng)頁的字節(jié)數(shù)大約為50KB。關(guān)于網(wǎng)頁數(shù)量和字節(jié)數(shù)的增長率,2013年較之2012年增幅分別為22.2%和19.0%。動(dòng)態(tài)網(wǎng)頁的存在,客戶端、服務(wù)器端腳本語言的使用,使得指向相同頁面的URL數(shù)量出現(xiàn)爆炸式增長?! ∫陨咸卣魇沟镁W(wǎng)絡(luò)爬蟲
6、面臨一定的困難:首先,海量的網(wǎng)頁信息使得網(wǎng)絡(luò)爬蟲在有限的時(shí)間內(nèi)只能爬行少量網(wǎng)頁;其次,動(dòng)態(tài)網(wǎng)頁的一些技術(shù)原因使得網(wǎng)絡(luò)爬蟲無法爬行它們。僅在中國就存在如此之多的網(wǎng)頁,假如考慮全世界的網(wǎng)頁,那么,世界上是不存在能索引互聯(lián)網(wǎng)上所有網(wǎng)頁的搜索引擎的,即使可以抓取全部的頁面,也沒有充足的空間來容納?! ?網(wǎng)絡(luò)爬蟲搜索方法比較 網(wǎng)絡(luò)爬蟲的基本組成結(jié)構(gòu)比較基本組成結(jié)構(gòu)比較如圖1、圖2所示。網(wǎng)絡(luò)爬蟲的搜索結(jié)果比較本實(shí)驗(yàn)選取的是含有Flash資源比較多且比較權(quán)威的10個(gè)網(wǎng)站作為種子網(wǎng)站,傳統(tǒng)爬行器搜索到的Flash個(gè)數(shù)與帶JS(JavaScript)腳本文件搜索的爬行器
7、搜索到的Flash個(gè)數(shù)分別在最后兩列里面,如表1所示?! ?shí)驗(yàn)結(jié)果分析本實(shí)驗(yàn)所用帶JS腳本文件搜索的爬行器不但具備傳統(tǒng)爬行器的功能,而且可以爬行網(wǎng)頁中包含的JS腳本文件,將JS文件下載下來然后放到網(wǎng)頁源文件的后面,再對整體進(jìn)行Flash個(gè)數(shù)的統(tǒng)計(jì)。本實(shí)驗(yàn)分別用傳統(tǒng)爬行器和帶JS腳本文件搜索的爬行器對相同的10個(gè)網(wǎng)站進(jìn)行爬行,爬行時(shí)間為24小時(shí),在爬行了65626個(gè)頁面之后,帶JS腳本文件搜索的爬行器搜索到的Flash個(gè)數(shù)比傳統(tǒng)爬行器搜索到的Flash個(gè)數(shù)多了4000多個(gè)。這說明JS腳本文件里面也包含了許多Flash資源,能夠讓網(wǎng)絡(luò)爬蟲找到更多的Flash
8、資源;同時(shí),CSS(層疊樣式表)文件也可能包含F(xiàn)lash資源,假如對網(wǎng)頁中包含的