http://www.tuicool.com/articles/VziaEz dede
第一步、我們打開織夢后台點擊采集——采集節點管理——增加新節點
第二步、新增節點-配置網址索引
填寫要采集的網站的列表相關規則,
查看采集站點的編碼和網站源碼
我們右鍵單擊,點擊查看源碼,在源碼的開頭位置,找到一個寫有charset=某一編碼的meta標簽,比如charset="gb2312",這個就是所說的網站編碼了
選擇采集站點的編碼
第三步、
新增節點-配置文章網址匹配規則
我們查看采集站點的列表頁源碼,找到文章列表開始html和結束html標簽,分別把它們復制到增加采集節點->文章網址匹配規則的"區域開始的HTML"和“區域結束的HTML”輸入框中。你不一定選擇右鍵查看源碼來找到文章列表開始標簽,你可以在文章開始的地方右鍵單擊,審查元素(chrome瀏覽器,firefox是查看元素),這樣就更方便的找到文章列表開始和結束的標簽了。
設置之后我們點擊"保存信息並進入下一步設置"
第四步:
網址獲取規則測試
如果在測試結果發現有無關的網址信息,說明的第五步中的網址過濾規則有誤或者沒有填寫過濾規則。如果發現采集有誤,你可以返回上一次修改,沒有就點擊“保存信息並進入下一步設置”。

內容字段獲取規則
我們查看采集站點的文章源碼,找到相關選項的開始和結束html標簽,填寫入指定位置,開始和結束標簽以"[內容]"分格。
設置完畢,我們點擊"保存配置並預覽"
第六步
過濾規則
在第七步中的匹配規則后面,都 有一個過濾規則,這個過濾規則是用來過濾無需采集的內容。
比如,網易每篇文章都有一個放置廣告的iframe標簽,我們要采集網易的文章,不可能采集回來之后,一篇一篇得去刪除這個廣告。但是如何去除呢?去除方法就是那個過濾規則,我們點擊常用規則,就會彈出一個小窗口,列出了常用的過濾規則,我們只需點擊要們要過濾的規則即可,要過濾網易文章中的iframe標簽,我們就點擊iframe即可。
測試內容字段設置
因為網易有的文章開頭是<div id="endText">,有的文章開頭是<div id="endText" class="end-text">,所以會出現采集出錯的情況。
如果你現在就要采集,你可以點擊保存並采集。這里我選擇僅保存
采集內容(一)
回到采集節點管理的界面,也就是第一步中的界面,我們選擇節點,點擊采集
采集內容(二)
查看已下載
可以在采集界面(即第十步中的界面)的右上角,點擊“查看已下載”。也可以在“采集節點管理”的界面里點擊“查看已下載”。這里以第二個方法為例。
導出內容
選擇要導入到的欄目,數據量,是否生成html文件 ,隨機推薦數量
最終結果
相關閱讀: