火車頭采集教程火車頭采集器使用說明

火車頭采集教程火車頭采集器使用說明

ID:6815529

大?。?.29 MB

頁數(shù):36頁

時間:2018-01-26

火車頭采集教程火車頭采集器使用說明_第1頁
火車頭采集教程火車頭采集器使用說明_第2頁
火車頭采集教程火車頭采集器使用說明_第3頁
火車頭采集教程火車頭采集器使用說明_第4頁
火車頭采集教程火車頭采集器使用說明_第5頁
資源描述:

《火車頭采集教程火車頭采集器使用說明》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在工程資料-天天文庫。

1、火車頭采集教程火車頭采集器使用說明上圖中,用紅線圈住的LocoySpider.exe是主程序,我們雙擊打開。。。ps:這里說下,上圖中,有好多任務(wù)是我自己用的。。。新程序,并沒有那么多。。。我們會看到火車的界面,看起來非常復(fù)雜,是吧?呵呵,其實并沒有那么復(fù)雜,對于新手,有好多東西是用不到的。。。下邊會一一的講解。。。我們先補習(xí)一下,火車頭采集軟件的工作原理。。。因為我們?yōu)g覽到的網(wǎng)頁,最后都是通過html輸出的,那么意味著,我們可以查看到html的源碼,那么火車頭為什么會采集到內(nèi)容呢?我們看下網(wǎng)站的基本結(jié)構(gòu)。。。

2、htmlPUBLIC"-//W3C//DTDXHTML1.0Transitional//EN""http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">-------這些藍色的東西,對于新手,我們不需要知道!網(wǎng)頁的標題-

3、---紅色的是網(wǎng)頁的標題。。。如下圖(1)內(nèi)容??????????在這個和之間的,是網(wǎng)站的內(nèi)容部分。。如下圖(2)----------這里是網(wǎng)站的結(jié)尾。。。。如果想查看一個網(wǎng)頁的html源文件,之需要點擊瀏覽器上的查看,源文件即可。。。。(1)(2)那么,我們知道了一個網(wǎng)頁最基本的架構(gòu),那么就好理解火車采集的基本原理了火車采集軟件是怎么采集的呢?我們配置好火車頭采集規(guī)則,什么叫采集規(guī)則?就是我們查看網(wǎng)頁的源文件,看看整個網(wǎng)頁的源碼,內(nèi)容部分的開始標簽

4、,和結(jié)束標簽,這樣火車才能知道,我們要采集這個頁面的哪個部分,比如下邊我們演示的。。。

5、"/>網(wǎng)頁的標題內(nèi)容我們想要采集“內(nèi)容”那么就要告訴火車采集器,內(nèi)容開始標簽是,結(jié)束標簽就是明白了么?呃。。。估計是我的表達能力不夠好。。。so。。。我們看下邊的實例,在好好鞏固下就OK。。。OK。。那么我們開始一步一步教大家設(shè)置采集規(guī)則。。。首先第一個。。我們的目標站。。discuz!x1.5架構(gòu)的網(wǎng)站。。。http://www.yq90.cn/forum-60-1.html我們要把這個版塊的內(nèi)容以及回復(fù)都采集到我們的網(wǎng)站上去。。。

6、首先我們打開火車,新建一個站點。。。點擊火車左上角上的新建按鈕,選擇新建站點。。。如下圖我們只需要填寫站點名就可以,其余的保持默認,然后點擊保存按鈕!然后。。。在這個站點下,新建一個任務(wù)。。。選中我們新建的站點,點擊鼠標右鍵,選擇第一個,從該站點新建任務(wù)。。。如下圖其中1,是任務(wù)的名字,必須填寫。。。2,是整個采集任務(wù)的步驟向?qū)В?,是文章列表的設(shè)置區(qū)域(下邊講解),4,和3差不多。。。5,是登錄的地方,有些網(wǎng)址必須登錄,我們才可以看到內(nèi)容,就是這個東西!OK。就這些,那么,我們一步一步的來!首先我們給我們的任務(wù)加一個標題。。。

7、下一步,我們就開始設(shè)置列表的采集規(guī)則(因為現(xiàn)在火車不知道http://www.yq90.cn/forum-60-1.html這個頁面的文章列表是那些,所以我們要告訴火車!)這里有兩種方式,新手嘛,我也不知道適合哪種。。。我們就用默認的吧,第一種我們點擊向?qū)砑尤缓蟪霈F(xiàn)下圖。。其中有4個選項卡,如果我們只采集目標站點的一個文章列表http://www.yq90.cn/forum-60-1.html,那么我們選中單條網(wǎng)址,直接寫上目標的列表網(wǎng)站,如下圖!然后點擊添加,點擊完成就OK。。那么,如果我們要采集多個列表。那么我們回到看下邊

8、的圖其中1,是目標網(wǎng)站的地址其中2,是火車的通配符(就是某個東西識別的東西)其中3,是間隔數(shù)已經(jīng)補零(下邊一一講解)其中4,數(shù)字變化。。。下邊講解其中5,字母變化。。。那么。。??聪聢D圖中在地址欄填寫的是http://www.yq90.cn/forum-60-(

當前文檔最多預(yù)覽五頁,下載文檔查看全文

此文檔下載收益歸作者所有

當前文檔最多預(yù)覽五頁,下載文檔查看全文
溫馨提示:
1. 部分包含數(shù)學(xué)公式或PPT動畫的文件,查看預(yù)覽時可能會顯示錯亂或異常,文件下載后無此問題,請放心下載。
2. 本文檔由用戶上傳,版權(quán)歸屬用戶,天天文庫負責整理代發(fā)布。如果您對本文檔版權(quán)有爭議請及時聯(lián)系客服。
3. 下載前請仔細閱讀文檔內(nèi)容,確認文檔內(nèi)容符合您的需求后進行下載,若出現(xiàn)內(nèi)容與標題不符可向本站投訴處理。
4. 下載文檔時可能由于網(wǎng)絡(luò)波動等原因無法下載或下載錯誤,付費完成后未能成功下載的用戶請聯(lián)系客服處理。