資源描述:
《火車頭采集器菜鳥使用手冊》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、火車頭采集教程火車頭采集器使用說明下載地址:http://www.okyanli.com/forum.php?mod=viewthread&tid=4&extra=下載地址:http://www.locoy.com/Down/我們下載免費版。。。。注意:想用火車,就必須得安裝.NETFrameWork2.0框架或更高版本.netframework2.0下載地址:那么,火車我們也下載到本地了,。net框架,我們也安裝了。。。那么,我們把新下載的火車采集軟件,解壓下。。??吹揭恍┟苊苈槁閬y七八糟的東西及文件。。。那么。。。上圖中,用紅
2、線圈住的LocoySpider.exe是主程序,我們雙擊打開。。。ps:這里說下,上圖中,有好多任務(wù)是我自己用的。。。新程序,并沒有那么多。。。我們會看到火車的界面,看起來非常復(fù)雜,是吧?呵呵,其實并沒有那么復(fù)雜,對于新手,有好多東西是用不到的。。。下邊會一一的講解。。。我們先補(bǔ)習(xí)一下,火車頭采集軟件的工作原理。。。因為我們?yōu)g覽到的網(wǎng)頁,最后都是通過html輸出的,那么意味著,我們可以查看到html的源碼,那么火車頭為什么會采集到內(nèi)容呢?我們看下網(wǎng)站的基本結(jié)構(gòu)。。。
3、TML1.0Transitional//EN""http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">-------這些藍(lán)色的東西,對于新手,我們不需要知道!網(wǎng)頁的標(biāo)題----紅色的是網(wǎng)頁的標(biāo)題。。。如下圖(1)4、ad>
內(nèi)容??????????在這個和之間的,是網(wǎng)站的內(nèi)容部分。。如下圖(2)----------這里是網(wǎng)站的結(jié)尾。。。。如果想查看一個網(wǎng)頁的html源文件,之需要點擊瀏覽器上的查看,源文件即可。。。。(1)(2)那么,我們知道了一個網(wǎng)頁最基本的架構(gòu),那么就好理解火車采集的基本原理了火車采集軟件是怎么采集的呢?我們配置好火車頭采集規(guī)則,什么叫采集規(guī)則?就是我們查看網(wǎng)頁的源文件,看看整個網(wǎng)頁的源碼,內(nèi)容部分的開始標(biāo)簽,和結(jié)束標(biāo)簽,這樣火車才能知道,我們要采集這個頁面的
5、哪個部分,比如下邊我們演示的。。。網(wǎng)頁的標(biāo)題6、ad>
內(nèi)容我們想要采集“內(nèi)容”那么就要告訴火車采集器,內(nèi)容開始標(biāo)簽是,結(jié)束標(biāo)簽就是明白了么?呃。。。估計是我的表達(dá)能力不夠好。。。so。。。我們看下邊的實例,在好好鞏固下就OK。。。OK。。那么我們開始一步一步教大家設(shè)置采集規(guī)則。。。首先第一個。。我們的目標(biāo)站。。discuz!x1.5架構(gòu)的網(wǎng)站。。。http://www.yq90.cn/forum-60-1.html我們要把這個版塊的內(nèi)容以及回復(fù)都采集到我們的網(wǎng)站上去。。。首先我們打開火車,新建一個站點。。。點擊火車左上角上的新
7、建按鈕,選擇新建站點。。。如下圖我們只需要填寫站點名就可以,其余的保持默認(rèn),然后點擊保存按鈕!然后。。。在這個站點下,新建一個任務(wù)。。。選中我們新建的站點,點擊鼠標(biāo)右鍵,選擇第一個,從該站點新建任務(wù)。。。如下圖其中1,是任務(wù)的名字,必須填寫。。。2,是整個采集任務(wù)的步驟向?qū)В?,是文章列表的設(shè)置區(qū)域(下邊講解),4,和3差不多。。。5,是登錄的地方,有些網(wǎng)址必須登錄,我們才可以看到內(nèi)容,就是這個東西!OK。就這些,那么,我們一步一步的來!首先我們給我們的任務(wù)加一個標(biāo)題。。。下一步,我們就開始設(shè)置列表的采集規(guī)則(因為現(xiàn)在火車不知道h
8、ttp://www.yq90.cn/forum-60-1.html這個頁面的文章列表是那些,所以我們要告訴火車?。┻@里有兩種方式,新手嘛,我也不知道適合哪種。。。我們就用默認(rèn)的吧,第一種我們點擊向?qū)砑尤缓蟪霈F(xiàn)下圖。。其中有4個選項卡,如果我們只采