一、爬取前提
1)本地安裝了mysql數據庫 5.6版本
2)安裝了Python 2.7
二、爬取內容
電影名稱、電影簡介、電影圖片、電影下載鏈接
三、爬取邏輯
1)進入電影網列表頁, 針對列表的html內容進行數據提取 電影名稱,電影簡介, 電影圖片, 電影詳情URL, 插入數據庫表
2)通過步驟1獲取到的電影詳情URL, 進入電影詳情頁, 獲取下載鏈接, 更新數據庫的下載鏈接字段
3)循環執行如上過程,直到數據被爬取完或者循環完畢。
三、爬取步驟
1)本地初始化數據庫腳本 database.sql
SET FOREIGN_KEY_CHECKS=0;
-- ----------------------------
-- Table structure for movie
-- ----------------------------
DROP TABLE IF EXISTS `movie`; CREATE TABLE `movie` ( `id` bigint(20) NOT NULL AUTO_INCREMENT, `title` varchar(100) DEFAULT NULL, `pic_url` varchar(100) DEFAULT NULL, `target_url` varchar(100) DEFAULT NULL, `introduction` varchar(1000) DEFAULT NULL, `download_url` text, `create_time` datetime DEFAULT NULL, PRIMARY KEY (`id`) ) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8;
2) 運行 MovieSpider.py 文件, 開啟爬蟲(當前只爬取1000頁數據, 總共約10萬部電影)
3)查詢數據庫表, 觀察爬取數據清空
select * from movie;
四、github代碼地址
