一、爬取前提
1)本地安裝了mysql數據庫
2)安裝了idea或者eclipse等開發工具
二、爬取內容
電影名稱、電影簡介、電影圖片、電影下載鏈接
三、爬取邏輯
1)進入電影網列表頁, 針對列表的html內容進行數據提取 電影名稱,電影簡介, 電影圖片, 電影詳情URL, 插入數據庫表
2)通過步驟1獲取到的電影詳情URL, 進入電影詳情頁, 獲取下載鏈接, 更新數據庫的下載鏈接字段
3)循環執行如上過程,直到數據被爬取完或者循環完畢。
三、爬取步驟
1)本地初始化數據庫腳本 database.sql
SET FOREIGN_KEY_CHECKS=0; -- ---------------------------- -- Table structure for movie -- ---------------------------- DROP TABLE IF EXISTS `movie`; CREATE TABLE `movie` ( `id` bigint(20) NOT NULL AUTO_INCREMENT, `title` varchar(100) DEFAULT NULL, `pic_url` varchar(100) DEFAULT NULL, `target_url` varchar(100) DEFAULT NULL, `introduction` varchar(1000) DEFAULT NULL, `download_url` text, `create_time` datetime DEFAULT NULL, PRIMARY KEY (`id`) ) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8;
2) 運行 MovieMain.java 函數, 開啟爬蟲(當前只爬取1000頁數據, 總共約10萬部電影)
3)查詢數據庫表, 觀察爬取數據清空
select * from movie;
四、github代碼地址
https://github.com/mhlmelon/SpiderMovie
五、總結
優點:方便調試
不足:java版本速度較慢(每秒爬10條左右),后續會補上python的版本。
