相關代碼已經修改調試成功----2017-4-21
一、說明
1.目標網址:伯樂在線
2.實現:如圖字段的爬取




3.數據:存放在百度網盤,有需要的可以拿取 鏈接:http://pan.baidu.com/s/1nvdnzpZ 密碼:2j9l

二、運行
運行我就不多說了,直接運行main.py,相關的參數變一下就好了。有點基礎的應該都會。
三、學習筆記
本項目爬取伯樂在線的全部文章,主要是記錄幾個常用的模版可以反復使用
- loader機制和item處理
- 異步存入數據庫模版
- 爬取圖片存放目錄記錄
- main.py的模版
- md5加密函數
- scrapy框架中自動下載圖片
四、問題----歡迎留言提出問題
1.暫時沒有很大的問題解決不了,后期如果遇到再貼出來
五、調試中遇到的問題記錄
1.TypeError:'Failure' object is not subscriptable
如圖:

解決方法: 添加一個try,except,因為有些圖片加載不出來

2.pymysql.err.InterfaceError: (0, '')
那是因為scrapy異步的存儲的原因,太快。
解決方法:只要放慢爬取速度就能解決,setting.py中設置 DOWNLOAD_DELAY = 2
想要看代碼請移步我的github:https://github.com/pujinxiao/jobbole_spider
如果本項目對你有用請給我一顆star,萬分感謝。
作者:今孝
出處:http://www.cnblogs.com/jinxiao-pu/p/6744374.html
本文版權歸作者和博客園共有,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接。
