火車頭采集器初學(xué)者入門教程

火車頭采集器初學(xué)者入門教程

ID:39525470

大?。?.95 MB

頁數(shù):45頁

時間:2019-07-05

火車頭采集器初學(xué)者入門教程_第1頁
火車頭采集器初學(xué)者入門教程_第2頁
火車頭采集器初學(xué)者入門教程_第3頁
火車頭采集器初學(xué)者入門教程_第4頁
火車頭采集器初學(xué)者入門教程_第5頁
資源描述:

《火車頭采集器初學(xué)者入門教程》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在教育資源-天天文庫。

1、火車頭采集器使用流程說明主講人:劉崇秀QQ:2415290目錄一、軟件下載二、新建站點三、采集網(wǎng)址四、采集內(nèi)容五、其他功能火車頭采集器官網(wǎng)地址為:http://www.locoy.com最新版本為8.4,可以從官網(wǎng)下載到,下載地址:http://files.locoy.com/v8/LocoySpider_V8.4_Build20140618.rar如不會安裝apache、mysql可以使用一鍵安裝軟件—XAMPP:http://big.softdl.360tpcdn.com/xampp/xampp_1.8.3_5.exe以下是本文中

2、提到的其他一些軟件的下載地址:phpmyadmin http://softdl.360tpcdn.com/phpMyAdmin/phpMyAdmin_4.2.11.zip navicatformysql版http://www.cr173.com/soft/38153.html軟件需要破解注冊碼:NAVH-WK6A-DMVK-DKW3名稱和組織不用填寫一、軟件下載火車頭采集器有付費版和免費版,免費版基本能滿足需求。下面內(nèi)容是以免費版功能進行的講解。打開火車頭軟件出現(xiàn)如何界面,由于使用的是免費版本,不用修改,點擊登錄即可。運行火車頭采集

3、器打開火車頭軟件,界面如下圖:二、新建站點第一步:根據(jù)需要建立分組或任務(wù),任務(wù)需要建立在分組之下(如下圖)二、新建站點二、新建站點第二步:點擊“新建站點”后出現(xiàn)如下界面。填寫任務(wù)名稱點擊起始網(wǎng)址區(qū)域右側(cè)“添加”按鈕后,根據(jù)需求選擇添加采集網(wǎng)址模式,這里我們先選擇“批量/多頁”為例:三、采集網(wǎng)址三、采集網(wǎng)址以抓取慧聰業(yè)界動態(tài)http://info.it.hc360.com/list/zx_yjdt.shtml為例:通過觀察頁腳網(wǎng)址參數(shù)變化,可以看到下方網(wǎng)址中標紅部分數(shù)字隨著頁數(shù)大小發(fā)生了變動,隨意復(fù)制其中一個網(wǎng)址,例如下方網(wǎng)址http:

4、//info.it.hc360.com/list/zx_yjdt-2.shtml三、采集網(wǎng)址--批量/多頁在地址格式中輸入剛才復(fù)制的網(wǎng)址,框選中變動的數(shù)字,點擊右側(cè)的(*)符號會自動輸入頁碼變動符號。由于該網(wǎng)址采用數(shù)字等差數(shù)列,在“等差數(shù)列”右側(cè)首項輸入想要采集的起始ID頁數(shù),“項數(shù)”右側(cè)輸入一共要采集的數(shù)量,一般為最后頁碼數(shù)。查看下方預(yù)覽區(qū)域中網(wǎng)址是否正確,如正確點擊“添加-完成”按鈕。如果添加后發(fā)現(xiàn)有錯誤,可用鼠標點擊完成下方的網(wǎng)址,選擇刪除即可。三、采集網(wǎng)址—單挑網(wǎng)址在“單挑或多條網(wǎng)址”區(qū)域下方輸入要采集的網(wǎng)址(一行一個),點擊

5、添加“按鈕—完成”按鈕,完成添加。三、采集網(wǎng)址—文本導(dǎo)入有時我們知道要采集的網(wǎng)址,或者有時用程序批量生成要采集的網(wǎng)址可以用“文本導(dǎo)入”功能。下面是在文本編輯器中輸入范例中的部分網(wǎng)址的示例,接著我們把這部分網(wǎng)址導(dǎo)入到火車頭采集器中,作為采集目標源。三、采集網(wǎng)址—文本導(dǎo)入點擊“瀏覽”按鈕,找到自己想要導(dǎo)入的文本文件,點“確定”按鈕返回該窗口,點擊“添加-完成”按鈕完成添加任務(wù)。三、采集網(wǎng)址點擊“完成”按鈕,則出現(xiàn)以下類似界面,起始網(wǎng)址處可以看到新添加的要采集的網(wǎng)址:三、采集網(wǎng)址--多級網(wǎng)址獲取如果要獲取的信息是在這個頁面中的鏈接,就需要設(shè)

6、定“多級網(wǎng)址獲取”。點擊“多級網(wǎng)址獲取”右側(cè)的“添加”按鈕。三、采集網(wǎng)址--多級網(wǎng)址獲取為了更精準獲取要采集的網(wǎng)址,會設(shè)定在頁面某區(qū)域中獲取相關(guān)網(wǎng)址。以第一頁為例,可以看到網(wǎng)址截取區(qū)域開始以及結(jié)尾頁面的內(nèi)容。網(wǎng)址截取區(qū)域開始網(wǎng)址截取區(qū)域結(jié)尾三、采集網(wǎng)址--多級網(wǎng)址獲取查看頁面源代碼,我們以“業(yè)界動態(tài)”快速定位到要抓取網(wǎng)址區(qū)域開始附近,通過代碼分析,可以判斷出標紅區(qū)域中代碼為唯一代碼(必須為唯一代碼,否則抓取內(nèi)容會不準確),標記為開始內(nèi)容。同理可以獲取到頁尾代碼:

7、lass=pt_date>三、采集網(wǎng)址--多級網(wǎng)址獲取1、從網(wǎng)頁自動分析得到地址鏈接:在方框內(nèi)輸入剛才判斷的截取區(qū)域開始和結(jié)束代碼,點擊“保存”按鈕。如想測試采集的網(wǎng)址效果,點擊右下角的“測試網(wǎng)址采集”。如確定信息正確點擊“保存”按鈕。三、采集網(wǎng)址--手動填寫鏈接地址規(guī)則2、手動填寫鏈接地址規(guī)則:與“從頁面自動分析獲得地址鏈接”模式多了一塊功能區(qū)域。從網(wǎng)頁源代碼中我們可以看到每篇文章的源代碼大體如下:·O2O+會員營銷,千億盛宴你準備好

8、了嗎?11月10日18:54其中粗體紅色、藍色為變動值,框住網(wǎng)址部分,點右側(cè)的“[參數(shù)]”替換網(wǎng)址,“實際連接”處由于網(wǎng)址采

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當(dāng)前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責(zé)整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。