任務:
采集某一個指定頁面的文章包括(標題、圖片、描述、內容)導入到自己網站數據庫對應欄目(欄目id為57),數據庫字段分別(title,thumb,descrption,content)。
頁面里面第一張圖作為文章縮略圖,這邊一個獲取縮略圖名稱並添加上對應網站路徑放入數據庫thumb字段,另一個是下載下本地,統一上傳到指定文件夾,(當然看軟件可以直接ftp,目前還沒弄,后期弄了會補充)
1、新建分組--新建任務
2、添加網址+ 編輯獲取網址的規則
選擇范圍在 ul 里面的 li 里面的鏈接,注意排除重復地址,可以點擊下面測試網址采集獲取。
可以看到有采集到的文章鏈接了。
3、采集內容規則
我這邊需要采集下面圖上展示數據(catid是欄目id,可以將采集到的數據放入對應欄目,設置固定值就好)
着重說下內容和圖片的采集,標題和描述同理內容采集
內容采集:
打開一個采集的文章頁面,查看源代碼(禁了右鍵的f11 或者在網址前面加上 view-source: 一樣可以查看):
選中文章開頭一個位置,截取一段在ctrl+f 搜下是否唯一一段,若是就可以放在位置下圖1處,結尾同開頭一樣。
我截取內容不想里面還帶有鏈接圖片可以數據處理,添加--html標簽排除--選好確定--確定
還有需要下載頁面圖片,勾選和填寫下面選項
圖片采集:
(1)選中范圍和內容一樣(文章內圖片)
(2)數據處理選 提取第一張圖片 內容是:http://www.xxx.com/2017/33/aa.jpg
(3)只要aa.jpg,正則過濾 ,獲取內容:aa.jpg
(4)數據庫存儲有前綴,添加上, upload/xxxxx/
找一個頁面測試一下,可以看到對應項目都獲取到了。
4、發布內容設置,這里以方式三發布到數據庫為例子,編輯后回到這邊勾選剛定義的模塊就好:
5、我需要保存圖片到本地,要設置下保存文件的路徑(ftp后續會試着使用)。
6、保存,查看剛新建的任務,右鍵 開始任務運行,這邊就可以看到文字和圖片都下載下來了,數據庫里面也可以看到了。