DeDeCMS織夢的采集教程 - 碼上歡樂

相關內容簡體繁體

DeDeCMS織夢的采集教程

本文轉載自查看原文 2015-07-30 14:33 4094 CMS

http://www.tuicool.com/articles/VziaEz dede

第一步、我們打開織夢后台點擊采集——采集節點管理——增加新節點

第二步、新增節點-配置網址索引

填寫要采集的網站的列表相關規則，

查看采集站點的編碼和網站源碼

我們右鍵單擊，點擊查看源碼，在源碼的開頭位置，找到一個寫有charset=某一編碼的meta標簽，比如charset="gb2312",這個就是所說的網站編碼了

選擇采集站點的編碼

第三步、

新增節點-配置文章網址匹配規則

我們查看采集站點的列表頁源碼，找到文章列表開始html和結束html標簽，分別把它們復制到增加采集節點->文章網址匹配規則的"區域開始的HTML"和“區域結束的HTML”輸入框中。你不一定選擇右鍵查看源碼來找到文章列表開始標簽，你可以在文章開始的地方右鍵單擊，審查元素(chrome瀏覽器,firefox是查看元素)，這樣就更方便的找到文章列表開始和結束的標簽了。

設置之后我們點擊"保存信息並進入下一步設置"

第四步：

網址獲取規則測試

如果在測試結果發現有無關的網址信息，說明的第五步中的網址過濾規則有誤或者沒有填寫過濾規則。如果發現采集有誤，你可以返回上一次修改，沒有就點擊“保存信息並進入下一步設置”。

第五步：

內容字段獲取規則

我們查看采集站點的文章源碼，找到相關選項的開始和結束html標簽，填寫入指定位置，開始和結束標簽以"[內容]"分格。

設置完畢，我們點擊"保存配置並預覽"

第六步

過濾規則

在第七步中的匹配規則后面，都有一個過濾規則，這個過濾規則是用來過濾無需采集的內容。

比如，網易每篇文章都有一個放置廣告的iframe標簽，我們要采集網易的文章，不可能采集回來之后，一篇一篇得去刪除這個廣告。但是如何去除呢?去除方法就是那個過濾規則，我們點擊常用規則，就會彈出一個小窗口，列出了常用的過濾規則，我們只需點擊要們要過濾的規則即可，要過濾網易文章中的iframe標簽，我們就點擊iframe即可。

測試內容字段設置

因為網易有的文章開頭是<div id="endText">,有的文章開頭是<div id="endText" class="end-text">，所以會出現采集出錯的情況。

如果你現在就要采集，你可以點擊保存並采集。這里我選擇僅保存

采集內容（一）

回到采集節點管理的界面，也就是第一步中的界面，我們選擇節點，點擊采集

采集內容（二）

查看已下載

可以在采集界面(即第十步中的界面)的右上角，點擊“查看已下載”。也可以在“采集節點管理”的界面里點擊“查看已下載”。這里以第二個方法為例。

導出內容

選擇要導入到的欄目，數據量，是否生成html文件，隨機推薦數量

最終結果

相關閱讀：

DEDECMS采集教程

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 織夢dedecms是什么？ dedecms織夢增加會員下載授權額度功能教程詳細的DedeCMS(織夢)目錄權限安全設置教程織夢Dedecms使用Nginx的安全設置 dedecms織夢調用tags標簽的使用 dedecms織夢調用指定文章id 織夢DedeCMS相關文章的調用方法織夢DedeCMS調用網站備案號的圖文教程織夢Dedecms文件目錄結構 dedecms 織夢二級菜單的調用

粵ICP備18138465號 © 2018-2026 CODEPRJ.COM