python爬蟲實戰(七)--------伯樂在線文章(模版)


相關代碼已經修改調試成功----2017-4-21

一、說明

1.目標網址伯樂在線

2.實現:如圖字段的爬取

3.數據:存放在百度網盤,有需要的可以拿取 鏈接:http://pan.baidu.com/s/1nvdnzpZ 密碼:2j9l

二、運行

運行我就不多說了,直接運行main.py,相關的參數變一下就好了。有點基礎的應該都會。

三、學習筆記

本項目爬取伯樂在線的全部文章,主要是記錄幾個常用的模版可以反復使用

  1. loader機制和item處理
  2. 異步存入數據庫模版
  3. 爬取圖片存放目錄記錄
  4. main.py的模版
  5. md5加密函數
  6. scrapy框架中自動下載圖片

四、問題----歡迎留言提出問題

1.暫時沒有很大的問題解決不了,后期如果遇到再貼出來

五、調試中遇到的問題記錄

1.TypeError:'Failure' object is not subscriptable

如圖:

解決方法: 添加一個try,except,因為有些圖片加載不出來

2.pymysql.err.InterfaceError: (0, '')

那是因為scrapy異步的存儲的原因,太快。

解決方法:只要放慢爬取速度就能解決,setting.py中設置 DOWNLOAD_DELAY = 2


想要看代碼請移步我的github:https://github.com/pujinxiao/jobbole_spider

如果本項目對你有用請給我一顆star,萬分感謝。

作者:今孝

出處:http://www.cnblogs.com/jinxiao-pu/p/6744374.html

本文版權歸作者和博客園共有,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM