python爬蟲實戰（七）--------伯樂在線文章（模版）

本文轉載自查看原文 2017-04-21 17:14 2739 學習scrapy框架/ python實戰

相關代碼已經修改調試成功----2017-4-21

一、說明

1.目標網址：伯樂在線

2.實現：如圖字段的爬取

3.數據：存放在百度網盤，有需要的可以拿取鏈接：http://pan.baidu.com/s/1nvdnzpZ 密碼：2j9l

運行我就不多說了，直接運行main.py，相關的參數變一下就好了。有點基礎的應該都會。

本項目爬取伯樂在線的全部文章，主要是記錄幾個常用的模版可以反復使用

loader機制和item處理

異步存入數據庫模版

爬取圖片存放目錄記錄

main.py的模版

md5加密函數

scrapy框架中自動下載圖片

1.暫時沒有很大的問題解決不了，后期如果遇到再貼出來

1.TypeError：'Failure' object is not subscriptable

如圖：

解決方法：添加一個try，except，因為有些圖片加載不出來

2.pymysql.err.InterfaceError: (0, '')

那是因為scrapy異步的存儲的原因，太快。

解決方法：只要放慢爬取速度就能解決，setting.py中設置 DOWNLOAD_DELAY = 2

如果本項目對你有用請給我一顆star，萬分感謝。

作者：今孝

本文版權歸作者和博客園共有，歡迎轉載，但未經作者同意必須保留此段聲明，且在文章頁面明顯位置給出原文連接。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 爬取伯樂在線文章（一）爬取伯樂在線文章（四）將爬取結果保存到MySQL 爬取伯樂在線文章（二）通過xpath提取源文件中需要的內容 Scrapy基礎(六)————Scrapy爬取伯樂在線一通過css和xpath解析文章字段 python爬蟲實戰（三）--------搜狗微信文章（IP代理池和用戶代理池設定----scrapy）爬蟲實戰【1】使用python爬取博客園的某一篇文章 Python爬蟲實踐——爬取網站文章【Python爬蟲實戰】微信爬蟲 python實戰——網絡爬蟲之request 《實戰Python網絡爬蟲》- 感想