WordPress 胖鼠采集如何自定義采集規則方法。

本文轉載自查看原文 2019-01-14 15:24 1937 胖鼠采集QQ群/ 胖鼠采集/ WordPress/ 胖鼠采集使用方法/ fatrat/ pangshu/ PHP/ fatratcollect/ pangshucaiji/ 胖鼠采集規則/ 胖鼠采集DEMO

大家好。簡單的采集規則讓不懂代碼的同學通過簡單學習掌握爬蟲技巧是胖鼠采集的核心

來源: 胖鼠采集（原文保持最新規則教程）

下面帶領大家來創建一個自己采集規則。

視頻版本 https://v.youku.com/v_show/id_XNDI5MTQ2NzkwMA==.html?spm=a2h3j.8428770.3416059.1

核心只需要填好五個參數

采集地址
采集范圍
采集規則
詳情頁采集范圍
詳情頁采集規則

地址: 顧名思義, 是我們大家目標頁面的地址

采集范圍: 你要采集目標頁面的哪一塊數據

采集規則: 你要怎么采

詳情采集范圍: 同上

詳情采集規則: 同上

核心五部曲:

例子

采集目標地址: https://xx.qq.com/webplat/info/news_version3/154/2233/3889/m2702/list_1.shtml

右鍵檢查即可看到頁面代碼

黃色區域就是我們要采集的范圍，所以我們采集范圍這么寫

采集范圍： .down-nr>ul>li

解釋: 加上 ul li 會循環的采集每一個塊。達到了我們列表采集的目的

采集規則: a:eq(1)

解釋: a 選中a標簽 :eq(1) 是選中 li下面第1個a標簽，注: 數字是從0開始的。第一個a是0 第二個a是1 懂了吧？

詳情采集范圍 .sub-cont

解釋: 看圖 .sub-cont 包括了標題和內容。所以我們選擇這個區域

詳情采集規則 title = .n_title

詳情采集規則 content = .sub-nr

解釋: 看圖 .n_title 是文章的標題

解釋: 看圖 .sub-nr 使文章的內容

完成的配置

解釋一下規則名目前默認三個值暫時夠用

a href 取 a標簽的 href(這個屬性都是跳轉地址) 值
xxx text 意指取 xxx的text(文本的意思)值
xxx html 意指去 xxx 那個區域的所有的html 一般用到取內容，內容比較多。且內容有排版。所以要拿到所有的原始html

標簽過濾怎么用呢？給大家描述一下

a 就是去除掉所有a標簽保留a標簽的文本（去掉原文一些跳轉規則）
-a 就是刪除a標簽已經a標簽里面所有的內容 (不建議使用，因為有些圖片是在a里面的刪除a 圖片也沒了。)
-div 刪除所有div
-.class1 刪除內容中 class = class1 的標簽
- #aaaa 刪除文中 id = aaaa 的標簽
-p 同上
-b 同上
-span 同上
-p:first 刪除第一個 p標簽
-p:last 刪除最后一個 p標簽
就是這個規律...

看這里這個只是一部分。大家自行百度，所以說胖鼠采集過濾功能很強大。

這個例子在導入默認例子按鈕里面有。大家可以導入自己品嘗！

還有一個debug功能要告訴大家

給大家實戰一下

上面這個debug例子是 debug 列表頁面的鏈接。大家要使用debug功能測試詳情頁面的標題內容是否都獲取正常了才保存這個匹配

一次花10分鍾配一次除了目標網站改版就可以一直使用。希望大家花一點點時間學習一下。

有什么不懂得來找胖鼠把。祝大家用的開心用的愉快！

胖鼠采集: QQ群1: 454049736

胖鼠采集: QQ群2: 846069514

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 WordPress 開源文章采集插件胖鼠采集網站流量日志數據自定義采集實現 WordPress防采集的幾種方法 zabbix主動模式,自定義Key監控 zabbix采集器基礎蘋果cms自定義資源庫采集教程 tampermonkey，采用js解析自定義腳本，實現網頁列表數據采集分析 adblock自定義規則自定義的PAC規則 wordpress添加自定義頁面 wordpress 如何實現自定義表單？