前言
一、python爬蟲框架
一些爬蟲項目的半成品
二、常見python爬蟲框架
(1) Scrapy:很強大的爬蟲框架,可以滿足簡單的頁面爬取(比如可以明確獲知url pattern的情況)。用這個框架可以輕松爬下來如亞馬遜商品信息之類的數據。但是對於稍微復雜一點的頁面,如weibo的頁面信息,這個框架就滿足不了需求了。
(2) Crawley: 高速爬取對應網站的內容,支持關系和非關系數據庫,數據可以導出為JSON、XML等
(3) Portia:可視化爬取網頁內容
(4) newspaper:提取新聞、文章以及內容分析
(5) python-goose:java寫的文章提取工具
(6) Beautiful Soup:名氣大,整合了一些常用爬蟲需求。缺點:不能加載JS。
(7) mechanize:優點:可以加載JS。缺點:文檔嚴重缺失。不過通過官方的example以及人肉嘗試的方法,還是勉強能用的。
(8) selenium:這是一個調用瀏覽器的driver,通過這個庫你可以直接調用瀏覽器完成某些操作,比如輸入驗證碼。
(9) cola:一個分布式爬蟲框架。項目整體設計有點糟,模塊間耦合度較高。
一些爬蟲項目的半成品
二、常見python爬蟲框架
(1) Scrapy:很強大的爬蟲框架,可以滿足簡單的頁面爬取(比如可以明確獲知url pattern的情況)。用這個框架可以輕松爬下來如亞馬遜商品信息之類的數據。但是對於稍微復雜一點的頁面,如weibo的頁面信息,這個框架就滿足不了需求了。
(2) Crawley: 高速爬取對應網站的內容,支持關系和非關系數據庫,數據可以導出為JSON、XML等
(3) Portia:可視化爬取網頁內容
(4) newspaper:提取新聞、文章以及內容分析
(5) python-goose:java寫的文章提取工具
(6) Beautiful Soup:名氣大,整合了一些常用爬蟲需求。缺點:不能加載JS。
(7) mechanize:優點:可以加載JS。缺點:文檔嚴重缺失。不過通過官方的example以及人肉嘗試的方法,還是勉強能用的。
(8) selenium:這是一個調用瀏覽器的driver,通過這個庫你可以直接調用瀏覽器完成某些操作,比如輸入驗證碼。
(9) cola:一個分布式爬蟲框架。項目整體設計有點糟,模塊間耦合度較高。
以上9個你會用幾個呢?