火車頭采集器初學(xué)者入門教程

火車頭采集器初學(xué)者入門教程

ID:39525470

大?。?.95 MB

頁數(shù):45頁

時(shí)間:2019-07-05

火車頭采集器初學(xué)者入門教程_第1頁
火車頭采集器初學(xué)者入門教程_第2頁
火車頭采集器初學(xué)者入門教程_第3頁
火車頭采集器初學(xué)者入門教程_第4頁
火車頭采集器初學(xué)者入門教程_第5頁
資源描述:

《火車頭采集器初學(xué)者入門教程》由會(huì)員上傳分享,免費(fèi)在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫

1、火車頭采集器使用流程說明主講人:劉崇秀QQ:2415290目錄一、軟件下載二、新建站點(diǎn)三、采集網(wǎng)址四、采集內(nèi)容五、其他功能火車頭采集器官網(wǎng)地址為:http://www.locoy.com最新版本為8.4,可以從官網(wǎng)下載到,下載地址:http://files.locoy.com/v8/LocoySpider_V8.4_Build20140618.rar如不會(huì)安裝apache、mysql可以使用一鍵安裝軟件—XAMPP:http://big.softdl.360tpcdn.com/xampp/xampp_1.8.3_5.exe以下是本文中

2、提到的其他一些軟件的下載地址:phpmyadmin http://softdl.360tpcdn.com/phpMyAdmin/phpMyAdmin_4.2.11.zip navicatformysql版http://www.cr173.com/soft/38153.html軟件需要破解注冊(cè)碼:NAVH-WK6A-DMVK-DKW3名稱和組織不用填寫一、軟件下載火車頭采集器有付費(fèi)版和免費(fèi)版,免費(fèi)版基本能滿足需求。下面內(nèi)容是以免費(fèi)版功能進(jìn)行的講解。打開火車頭軟件出現(xiàn)如何界面,由于使用的是免費(fèi)版本,不用修改,點(diǎn)擊登錄即可。運(yùn)行火車頭采集

3、器打開火車頭軟件,界面如下圖:二、新建站點(diǎn)第一步:根據(jù)需要建立分組或任務(wù),任務(wù)需要建立在分組之下(如下圖)二、新建站點(diǎn)二、新建站點(diǎn)第二步:點(diǎn)擊“新建站點(diǎn)”后出現(xiàn)如下界面。填寫任務(wù)名稱點(diǎn)擊起始網(wǎng)址區(qū)域右側(cè)“添加”按鈕后,根據(jù)需求選擇添加采集網(wǎng)址模式,這里我們先選擇“批量/多頁”為例:三、采集網(wǎng)址三、采集網(wǎng)址以抓取慧聰業(yè)界動(dòng)態(tài)http://info.it.hc360.com/list/zx_yjdt.shtml為例:通過觀察頁腳網(wǎng)址參數(shù)變化,可以看到下方網(wǎng)址中標(biāo)紅部分?jǐn)?shù)字隨著頁數(shù)大小發(fā)生了變動(dòng),隨意復(fù)制其中一個(gè)網(wǎng)址,例如下方網(wǎng)址http:

4、//info.it.hc360.com/list/zx_yjdt-2.shtml三、采集網(wǎng)址--批量/多頁在地址格式中輸入剛才復(fù)制的網(wǎng)址,框選中變動(dòng)的數(shù)字,點(diǎn)擊右側(cè)的(*)符號(hào)會(huì)自動(dòng)輸入頁碼變動(dòng)符號(hào)。由于該網(wǎng)址采用數(shù)字等差數(shù)列,在“等差數(shù)列”右側(cè)首項(xiàng)輸入想要采集的起始ID頁數(shù),“項(xiàng)數(shù)”右側(cè)輸入一共要采集的數(shù)量,一般為最后頁碼數(shù)。查看下方預(yù)覽區(qū)域中網(wǎng)址是否正確,如正確點(diǎn)擊“添加-完成”按鈕。如果添加后發(fā)現(xiàn)有錯(cuò)誤,可用鼠標(biāo)點(diǎn)擊完成下方的網(wǎng)址,選擇刪除即可。三、采集網(wǎng)址—單挑網(wǎng)址在“單挑或多條網(wǎng)址”區(qū)域下方輸入要采集的網(wǎng)址(一行一個(gè)),點(diǎn)擊

5、添加“按鈕—完成”按鈕,完成添加。三、采集網(wǎng)址—文本導(dǎo)入有時(shí)我們知道要采集的網(wǎng)址,或者有時(shí)用程序批量生成要采集的網(wǎng)址可以用“文本導(dǎo)入”功能。下面是在文本編輯器中輸入范例中的部分網(wǎng)址的示例,接著我們把這部分網(wǎng)址導(dǎo)入到火車頭采集器中,作為采集目標(biāo)源。三、采集網(wǎng)址—文本導(dǎo)入點(diǎn)擊“瀏覽”按鈕,找到自己想要導(dǎo)入的文本文件,點(diǎn)“確定”按鈕返回該窗口,點(diǎn)擊“添加-完成”按鈕完成添加任務(wù)。三、采集網(wǎng)址點(diǎn)擊“完成”按鈕,則出現(xiàn)以下類似界面,起始網(wǎng)址處可以看到新添加的要采集的網(wǎng)址:三、采集網(wǎng)址--多級(jí)網(wǎng)址獲取如果要獲取的信息是在這個(gè)頁面中的鏈接,就需要設(shè)

6、定“多級(jí)網(wǎng)址獲取”。點(diǎn)擊“多級(jí)網(wǎng)址獲取”右側(cè)的“添加”按鈕。三、采集網(wǎng)址--多級(jí)網(wǎng)址獲取為了更精準(zhǔn)獲取要采集的網(wǎng)址,會(huì)設(shè)定在頁面某區(qū)域中獲取相關(guān)網(wǎng)址。以第一頁為例,可以看到網(wǎng)址截取區(qū)域開始以及結(jié)尾頁面的內(nèi)容。網(wǎng)址截取區(qū)域開始網(wǎng)址截取區(qū)域結(jié)尾三、采集網(wǎng)址--多級(jí)網(wǎng)址獲取查看頁面源代碼,我們以“業(yè)界動(dòng)態(tài)”快速定位到要抓取網(wǎng)址區(qū)域開始附近,通過代碼分析,可以判斷出標(biāo)紅區(qū)域中代碼為唯一代碼(必須為唯一代碼,否則抓取內(nèi)容會(huì)不準(zhǔn)確),標(biāo)記為開始內(nèi)容。同理可以獲取到頁尾代碼:

7、lass=pt_date>三、采集網(wǎng)址--多級(jí)網(wǎng)址獲取1、從網(wǎng)頁自動(dòng)分析得到地址鏈接:在方框內(nèi)輸入剛才判斷的截取區(qū)域開始和結(jié)束代碼,點(diǎn)擊“保存”按鈕。如想測(cè)試采集的網(wǎng)址效果,點(diǎn)擊右下角的“測(cè)試網(wǎng)址采集”。如確定信息正確點(diǎn)擊“保存”按鈕。三、采集網(wǎng)址--手動(dòng)填寫鏈接地址規(guī)則2、手動(dòng)填寫鏈接地址規(guī)則:與“從頁面自動(dòng)分析獲得地址鏈接”模式多了一塊功能區(qū)域。從網(wǎng)頁源代碼中我們可以看到每篇文章的源代碼大體如下:·O2O+會(huì)員營(yíng)銷,千億盛宴你準(zhǔn)備好

8、了嗎?11月10日18:54其中粗體紅色、藍(lán)色為變動(dòng)值,框住網(wǎng)址部分,點(diǎn)右側(cè)的“[參數(shù)]”替換網(wǎng)址,“實(shí)際連接”處由于網(wǎng)址采

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動(dòng)畫的文件,查看預(yù)覽時(shí)可能會(huì)顯示錯(cuò)亂或異常,文件下載后無此問題,請(qǐng)放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負(fù)責(zé)整理代發(fā)布。如果您對(duì)本文檔版權(quán)有爭(zhēng)議請(qǐng)及時(shí)聯(lián)系客服。
3. 下載前請(qǐng)仔細(xì)閱讀文檔內(nèi)容,確認(rèn)文檔內(nèi)容符合您的需求后進(jìn)行下載,若出現(xiàn)內(nèi)容與標(biāo)題不符可向本站投訴處理。
4. 下載文檔時(shí)可能由于網(wǎng)絡(luò)波動(dòng)等原因無法下載或下載錯(cuò)誤,付費(fèi)完成后未能成功下載的用戶請(qǐng)聯(lián)系客服處理。