抓站工具用戶手冊(cè)

抓站工具用戶手冊(cè)

ID:8448933

大?。?92.50 KB

頁數(shù):71頁

時(shí)間:2018-03-28

抓站工具用戶手冊(cè)_第1頁
抓站工具用戶手冊(cè)_第2頁
抓站工具用戶手冊(cè)_第3頁
抓站工具用戶手冊(cè)_第4頁
抓站工具用戶手冊(cè)_第5頁
資源描述:

《抓站工具用戶手冊(cè)》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在學(xué)術(shù)論文-天天文庫。

1、益眾網(wǎng)站信息抓取工具用戶手冊(cè)益眾網(wǎng)站信息抓取工具用戶手冊(cè)第71頁共71頁益眾網(wǎng)站信息抓取工具用戶手冊(cè)目錄1.概述41.1.關(guān)于網(wǎng)站抓取工具41.2.特點(diǎn)52.軟件安裝52.1.安裝環(huán)境52.1.1.硬件環(huán)境52.1.2.軟件環(huán)境52.2.安裝步驟62.2.1.安裝JDK1.5.x62.2.2.安裝數(shù)據(jù)庫62.2.3.導(dǎo)入系統(tǒng)數(shù)據(jù)62.2.4.安裝本系統(tǒng)72.2.5.Tomcat啟動(dòng)和停止93.術(shù)語104.使用說明114.1.輔助功能124.1.1.登錄124.1.2.修改管理員信息124.1.3.系統(tǒng)參數(shù)配置124.1.4.入庫數(shù)據(jù)表配置134.1.5.抓取統(tǒng)

2、計(jì)144.1.6.查看網(wǎng)頁源碼144.1.7.軟件注冊(cè)144.2.頁面配置144.2.1.增加頁面基本信息154.2.2.修改頁面基本信息164.2.3.刪除頁面基本信息164.2.4.URL配置174.2.5.增加正文頁URL及定位配置信息174.2.6.修改正文頁URL及定位配置信息194.2.7.增加列表頁URL配置信息194.2.8.修改列表頁URL配置信息214.2.9.URL參數(shù)配置214.2.10.增加URL參數(shù)214.2.11.修改URL參數(shù)224.2.12.刪除URL參數(shù)234.2.13.設(shè)置URL參數(shù)值234.2.14.增加URL參數(shù)值23

3、4.2.15.修改URL參數(shù)值244.2.16.刪除URL參數(shù)值24第71頁共71頁益眾網(wǎng)站信息抓取工具用戶手冊(cè)4.2.17.定位信息設(shè)置244.2.18.增加列表頁定位配置信息254.2.19.修改列表頁定位配置信息264.2.20.下級(jí)頁面配置264.2.21.增加子頁面274.2.22.修改子頁面284.2.23.刪除子頁面284.2.24.設(shè)置抓取時(shí)間284.2.25.抓取304.3.頁面解析304.3.1.增加頁面解析配置信息304.3.2.修改頁面解析配置信息344.3.3.刪除頁面解析配置信息344.3.4.值替換配置信息344.3.5.增加值替

4、換配置信息354.3.6.修改值替換配置信息354.3.7.刪除值替換配置信息354.4.頁面入庫364.4.1.增加頁面入庫數(shù)據(jù)表信息364.4.2.修改頁面入庫數(shù)據(jù)表信息374.4.3.刪除頁面入庫數(shù)據(jù)表信息374.4.4.字段對(duì)照值配置信息374.4.5.增加字段對(duì)照值384.4.6.修改字段對(duì)照值394.4.7.刪除字段對(duì)照值395.配置樣例395.1.登錄405.2.入庫數(shù)據(jù)表配置405.3.頁面配置405.3.1.頁面基本信息配置:415.3.2.URL配置:425.3.3.定位信息配置:435.4.頁面解析445.5.下級(jí)頁面配置465.6.下級(jí)

5、頁面解析:485.7.入庫配置:515.7.1.選定入庫數(shù)據(jù)表515.7.2.字段對(duì)照值配置535.8.抓?。?56.參考內(nèi)容566.1.規(guī)則表達(dá)式566.2.JDBCURL587.服務(wù)支持60第71頁共71頁益眾網(wǎng)站信息抓取工具用戶手冊(cè)1.概述1.1.關(guān)于網(wǎng)站抓取工具本工具可以抓取互聯(lián)網(wǎng)上的任何網(wǎng)頁,包括需要登錄后才能訪問的頁面。對(duì)抓取到頁面內(nèi)容進(jìn)行解析,得到結(jié)構(gòu)化的信息,比如:新聞標(biāo)題、作者、來源、正文等。支持列表頁的自動(dòng)翻頁抓取,支持正文頁多頁合并,支持圖片、文件的抓取,可以抓取靜態(tài)網(wǎng)頁,也可以抓取帶參數(shù)的動(dòng)態(tài)網(wǎng)頁,功能極其強(qiáng)大。用戶指定要抓取的網(wǎng)站、抓

6、取的網(wǎng)頁類型(固定頁面、分頁顯示的頁面等等),并配置如何解析數(shù)據(jù)項(xiàng)(如新聞標(biāo)題、作者、來源、正文等),系統(tǒng)可以根據(jù)配置信息自動(dòng)實(shí)時(shí)抓取數(shù)據(jù),啟動(dòng)抓取的時(shí)間也可以通過配置設(shè)定,真正做到“按需抓取,一次配置,永久抓取”。抓來的數(shù)據(jù)可以保存到數(shù)據(jù)庫中。支持當(dāng)前主流數(shù)據(jù)庫,包括:Oracle、SQLServer、MySQL等。本工具完全可以替代傳統(tǒng)的編輯手工處理信息的模式,能夠?qū)崟r(shí)、準(zhǔn)確、一天24*60不間斷為企業(yè)提供最新資訊,真正能為企業(yè)降低成本,提高競爭力。系統(tǒng)功能結(jié)構(gòu)圖如下圖所示:第71頁共71頁益眾網(wǎng)站信息抓取工具用戶手冊(cè)1.1.特點(diǎn)l適用范圍廣,可以抓取任何

7、網(wǎng)頁(包括登錄后才能訪問的網(wǎng)頁)l處理速度快,如果網(wǎng)絡(luò)暢通,1小時(shí)可以抓取、解析10000個(gè)網(wǎng)頁l采用獨(dú)特的重復(fù)數(shù)據(jù)過濾技術(shù),支持增量式數(shù)據(jù)抓取,可以抓取實(shí)時(shí)數(shù)據(jù),如:股票交易信息、天氣預(yù)報(bào)等l抓取信息的準(zhǔn)確性高,系統(tǒng)提供了強(qiáng)大的數(shù)據(jù)校驗(yàn)功能,保證了數(shù)據(jù)的正確性l支持?jǐn)帱c(diǎn)續(xù)抓,在當(dāng)機(jī)或出現(xiàn)異常情況后可以恢復(fù)抓取,繼續(xù)后續(xù)的抓取工作,提高了系統(tǒng)的抓取效率l對(duì)于列表頁,支持翻頁,可以抓取到所有列表頁中的數(shù)據(jù)。對(duì)于正文頁,可以對(duì)分頁顯示的內(nèi)容自動(dòng)進(jìn)行合并;l支持頁面深度抓取,頁面間可以一級(jí)一級(jí)地抓下去。比如,通過列表頁抓取到正文頁URL,然后再抓取正文頁。各級(jí)頁面可

8、以分別入庫;lWEB操作界面,一處安裝

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。