DeDeCMS織夢的采集教程


http://www.tuicool.com/articles/VziaEz    dede

第一步、我們打開織夢后台點擊采集——采集節點管理——增加新節點

 

 第二步、新增節點-配置網址索引

填寫要采集的網站的列表相關規則,

 

查看采集站點的編碼和網站源碼

我們右鍵單擊,點擊查看源碼,在源碼的開頭位置,找到一個寫有charset=某一編碼的meta標簽,比如charset="gb2312",這個就是所說的網站編碼了

 

 

選擇采集站點的編碼

 

 

第三步、

新增節點-配置文章網址匹配規則

我們查看采集站點的列表頁源碼,找到文章列表開始html和結束html標簽,分別把它們復制到增加采集節點->文章網址匹配規則的"區域開始的HTML"和“區域結束的HTML”輸入框中。你不一定選擇右鍵查看源碼來找到文章列表開始標簽,你可以在文章開始的地方右鍵單擊,審查元素(chrome瀏覽器,firefox是查看元素),這樣就更方便的找到文章列表開始和結束的標簽了。

設置之后我們點擊"保存信息並進入下一步設置"

 

 

第四步:

網址獲取規則測試

如果在測試結果發現有無關的網址信息,說明的第五步中的網址過濾規則有誤或者沒有填寫過濾規則。如果發現采集有誤,你可以返回上一次修改,沒有就點擊“保存信息並進入下一步設置”。

 
第五步:

內容字段獲取規則

我們查看采集站點的文章源碼,找到相關選項的開始和結束html標簽,填寫入指定位置,開始和結束標簽以"[內容]"分格。

設置完畢,我們點擊"保存配置並預覽"

 

第六步

過濾規則

在第七步中的匹配規則后面,都 有一個過濾規則,這個過濾規則是用來過濾無需采集的內容。

比如,網易每篇文章都有一個放置廣告的iframe標簽,我們要采集網易的文章,不可能采集回來之后,一篇一篇得去刪除這個廣告。但是如何去除呢?去除方法就是那個過濾規則,我們點擊常用規則,就會彈出一個小窗口,列出了常用的過濾規則,我們只需點擊要們要過濾的規則即可,要過濾網易文章中的iframe標簽,我們就點擊iframe即可。

測試內容字段設置

因為網易有的文章開頭是<div id="endText">,有的文章開頭是<div id="endText" class="end-text">,所以會出現采集出錯的情況。

如果你現在就要采集,你可以點擊保存並采集。這里我選擇僅保存

采集內容(一)

回到采集節點管理的界面,也就是第一步中的界面,我們選擇節點,點擊采集

 

采集內容(二)

 

 

查看已下載

可以在采集界面(即第十步中的界面)的右上角,點擊“查看已下載”。也可以在“采集節點管理”的界面里點擊“查看已下載”。這里以第二個方法為例。

導出內容

選擇要導入到的欄目,數據量,是否生成html文件 ,隨機推薦數量

最終結果

 

相關閱讀:

DEDECMS采集教程


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM