火車頭采集器使用教程


1.在開始菜單欄下,新建分組

所屬分組應該選擇根節點

2.點擊所新建的分組,右擊選擇新建任務

(1)網址采集規則

選擇向導添加---->批量網址----->地址格式中輸入網址(需要修改地址參數)

 

注意:

<1>難點(京東、淘寶等網址評價網址的獲取)

在所在抓取的評論網址(推薦使用谷歌瀏覽器)上------>右鍵檢查----->Network---->Js----->在評論底部的頁面欄中點擊2,,3----->觀察Js中是否有鏈接跳出(正常的話應該由鏈接跳出,若無鏈接,則點擊clear進行清空)------->點擊copy--->copy link address

<2> 網址采集規則設置時,若所要抓取的網頁就是我們輸入的起始網址時,必須要點擊“起始網址就是內容頁網址?” 點擊設置,若不點擊設置,則會出現獲取不到網址鏈接的情況。

最后點擊網址采集測試,可見:

點擊所采集到的任意一個列表頁,進入內容采集規則的設置

(2)內容采集測試

<1>設置標簽名

若要新建標簽則點擊“+”

<2>內容提取方式選擇前后截取、勾選循環匹配,同時設置開頭字符串和結尾字符串

當所要抓的內容比較復雜時,可用(*)代替中間一段的代碼

<3>循環匹配的相關設置

(3)內容發布規則

<1>本地文件保存設置為開啟

<2>文件保存格式設置為txt

<3>保存方式選擇所有記錄存於一個文件中

<4>文件模板選用電商

最后保存任務

3.運行任務

(1)勾選任務中的”發布”

(2)點擊開始菜單欄下的任務控制區里的開始按鈕,則可以運行任務

 

 

 

轉自:http://www.zzarea.com/rumen/2182.html

http://board.locoy.com/?post=295


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM