基于web過程模擬的動(dòng)態(tài)web信息獲取說明書

基于web過程模擬的動(dòng)態(tài)web信息獲取說明書

ID:29472727

大?。?62.54 KB

頁數(shù):41頁

時(shí)間:2018-12-20

基于web過程模擬的動(dòng)態(tài)web信息獲取說明書_第1頁
基于web過程模擬的動(dòng)態(tài)web信息獲取說明書_第2頁
基于web過程模擬的動(dòng)態(tài)web信息獲取說明書_第3頁
基于web過程模擬的動(dòng)態(tài)web信息獲取說明書_第4頁
基于web過程模擬的動(dòng)態(tài)web信息獲取說明書_第5頁
資源描述:

《基于web過程模擬的動(dòng)態(tài)web信息獲取說明書》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在應(yīng)用文檔-天天文庫。

1、基于Web過程模擬的動(dòng)態(tài)Web信息獲取收藏摘要:介紹了分析相關(guān)Web頁面的方法和經(jīng)驗(yàn),實(shí)現(xiàn)了自動(dòng)提交HTML表單獲得所需頁面。采用性能優(yōu)異的Web信息獲取組件CURL,對(duì)大量科技文獻(xiàn)網(wǎng)站的網(wǎng)頁進(jìn)行信息獲取,實(shí)驗(yàn)表明CURL具有優(yōu)異的處理速度,并成功應(yīng)用到甘肅省科技文獻(xiàn)共享平臺(tái)的統(tǒng)一檢索系統(tǒng)中。關(guān)鍵詞:Web過程模擬;動(dòng)態(tài)Web信息獲取;CURL中圖分類號(hào):TP393??????隨著Internet的快速發(fā)展,Web資源已經(jīng)成為一種人們獲取信息的主要來源。但是對(duì)于需要查詢的信息,很多網(wǎng)站必須經(jīng)過注冊(cè)

2、登錄后方可使用提供服務(wù)的頁面,而且各個(gè)網(wǎng)站的信息表示具有很大的異構(gòu)性,給用戶帶來很大不便。為了訪問Web上大量有用的信息,動(dòng)態(tài)異構(gòu)的Web信息獲取方法就成為了一個(gè)研究的熱點(diǎn)。??????對(duì)于動(dòng)態(tài)異構(gòu)的Web資源,首先需要分析其網(wǎng)頁表單,模擬用戶點(diǎn)擊行為找到結(jié)果頁面,這些都是獲取動(dòng)態(tài)Web資源的難點(diǎn)問題;此外,Web網(wǎng)站的動(dòng)態(tài)變化對(duì)于保持信息抽取的準(zhǔn)確性也是一個(gè)挑戰(zhàn),有待研究者去解決。文獻(xiàn)[1-2]介紹了基于Web過程模擬的異構(gòu)數(shù)字文獻(xiàn)統(tǒng)一檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn),但對(duì)基于Web過程模擬的動(dòng)態(tài)Web信息獲

3、取原理及實(shí)現(xiàn)沒有詳細(xì)闡述。本文以獲取科技文獻(xiàn)資源網(wǎng)站的動(dòng)態(tài)Web信息為例來說明問題。391基于Web過程模擬的動(dòng)態(tài)Web信息獲取原理?????現(xiàn)在很多網(wǎng)站提供的頁面往往并不是可以通過一個(gè)簡單的URL就可以訪問的,而必須經(jīng)過注冊(cè)并登錄后方可使用提供服務(wù)的頁面。不同的資源對(duì)于登錄有不同的限制。由于與Web交互的細(xì)節(jié)需要人們自己來實(shí)現(xiàn),這就需要人們對(duì)訪問Web資源的細(xì)節(jié)進(jìn)行模擬和描述,得到所需結(jié)果頁面。????源數(shù)據(jù)站點(diǎn)分析模擬是指對(duì)資源站點(diǎn)的頁面結(jié)構(gòu)進(jìn)行分析,通過分析獲取其請(qǐng)求參數(shù)用來模擬HTTP請(qǐng)求

4、。其分析結(jié)果包括如何得到查詢結(jié)果頁面及其規(guī)律等。?????網(wǎng)頁源數(shù)據(jù)站點(diǎn)分析與提取技術(shù)是實(shí)現(xiàn)和Web資源自動(dòng)交互的基礎(chǔ),也是對(duì)所需網(wǎng)頁提取數(shù)據(jù)的基礎(chǔ)。一方面,與Web資源的交互過程中,有些參數(shù)和數(shù)據(jù)是通過網(wǎng)頁分析與提取獲得的;另一方面,得到的所需網(wǎng)頁是通過網(wǎng)頁分析和提取獲得的。用戶通過瀏覽器來訪問Web資源時(shí),瀏覽器為用戶隱藏了與Web資源交互的具體細(xì)節(jié),用戶看到的只是結(jié)果。對(duì)于需要查詢的信息,一般需要通過Web瀏覽器登錄到一個(gè)Web服務(wù)器,輸入查詢條件,提交查詢請(qǐng)求,服務(wù)器返回查詢結(jié)果。由于用戶

5、與Web資源的交互是以HTTP協(xié)議為基礎(chǔ)進(jìn)行的,這種交互可以由程序模擬出瀏覽器向遠(yuǎn)程Web服務(wù)器發(fā)送HTTP請(qǐng)求的過程。用戶每查詢一次信息,就是向服務(wù)器發(fā)送一次HTTP請(qǐng)求的過程。????39HTTP協(xié)議[3]是基于請(qǐng)求/響應(yīng)模式的。HTTP請(qǐng)求信息由請(qǐng)求行、請(qǐng)求頭部域和請(qǐng)求實(shí)體三部分組成。請(qǐng)求行中的方法描述指定資源中應(yīng)該執(zhí)行的動(dòng)作。常用方法有g(shù)et、post和head。請(qǐng)求頭部域是關(guān)于該次請(qǐng)求的一些附加信息。請(qǐng)求實(shí)體則是該次請(qǐng)求所需傳遞的一些參數(shù)信息。HTTP響應(yīng)信息由響應(yīng)行、響應(yīng)頭部域和響應(yīng)實(shí)

6、體三部分組成。響應(yīng)行主要顯示HTTP版本,以及此次響應(yīng)結(jié)果的狀態(tài)碼;響應(yīng)頭部域?yàn)樵摯雾憫?yīng)的附加信息;響應(yīng)實(shí)體則為該次響應(yīng)結(jié)果的詳細(xì)信息。??????由于可以通過程序模擬發(fā)送HTTP請(qǐng)求的過程,對(duì)于HTTP請(qǐng)求信息的獲取是模擬成功的關(guān)鍵。有些Web服務(wù)程序的設(shè)計(jì)要求瀏覽器端通過腳本技術(shù),對(duì)檢索項(xiàng)進(jìn)行預(yù)處理,在瀏覽器端生成一個(gè)檢索表達(dá)式,再將此表達(dá)式以HTTP請(qǐng)求的方式傳遞給服務(wù)器進(jìn)行檢索。在此情況下,需要分析HTML文件中的腳本代碼,構(gòu)造出正確的檢索表達(dá)式。有些請(qǐng)求信息參數(shù)是動(dòng)態(tài)變化的。這需要人工仔

7、細(xì)分析,找出其中規(guī)律,才能實(shí)現(xiàn)實(shí)時(shí)請(qǐng)求、實(shí)時(shí)響應(yīng),以及對(duì)查詢頁面的翻頁等功能。這些參數(shù)信息都不能有絲毫差錯(cuò)??梢越柚延械囊恍┚W(wǎng)絡(luò)通信攔截工具軟件,如Sniff’em、EHSniffer、HttpWatch、HttpTracer等。這些軟件可以捕獲并解碼瀏覽器發(fā)出的HTTP請(qǐng)求的數(shù)據(jù),分析HTTP通信的網(wǎng)絡(luò)活動(dòng)等。這樣就可以正確獲取HTTP請(qǐng)求通信所需的參數(shù)。2Web信息獲取工具????39?通過程序模擬訪問網(wǎng)頁的方法有SOCKET通信方式、FOPEN方式、第三方組件(如:libcurl)等。當(dāng)網(wǎng)

8、頁文件很大或者網(wǎng)頁根本不存在的時(shí)候,使用FOPEN的方法經(jīng)常會(huì)出現(xiàn)超時(shí)。在實(shí)際工程應(yīng)用中,必須考慮系統(tǒng)的性能及可移植性。Web信息獲取工具是系統(tǒng)性能好壞的一個(gè)最重要的技術(shù)環(huán)節(jié),不論是采用PHP中的SOCKET通信方式還是FOPEN方式都不能勝任如此頻繁的文件獲取時(shí)間要求。系統(tǒng)采用性能優(yōu)異的CURL訪問組件,該組件遠(yuǎn)程訪問速度比傳統(tǒng)方式速度快了近200倍,采用FOPEN方式對(duì)于100個(gè)HTTP文件請(qǐng)求每分鐘只能打開10個(gè),而采用CURL組件方式對(duì)于2000個(gè)HTTP文件請(qǐng)求每分鐘可以

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。