python爬取電影網站信息


一、爬取前提
1)本地安裝了mysql數據庫 5.6版本
2)安裝了Python 2.7

二、爬取內容
電影名稱、電影簡介、電影圖片、電影下載鏈接

三、爬取邏輯
1)進入電影網列表頁, 針對列表的html內容進行數據提取 電影名稱,電影簡介, 電影圖片, 電影詳情URL, 插入數據庫表
2)通過步驟1獲取到的電影詳情URL, 進入電影詳情頁, 獲取下載鏈接, 更新數據庫的下載鏈接字段
3)循環執行如上過程,直到數據被爬取完或者循環完畢。

三、爬取步驟
1)本地初始化數據庫腳本 database.sql
SET FOREIGN_KEY_CHECKS=0;

-- ----------------------------
-- Table structure for movie
-- ----------------------------
DROP TABLE IF EXISTS `movie`; CREATE TABLE `movie` ( `id` bigint(20) NOT NULL AUTO_INCREMENT, `title` varchar(100) DEFAULT NULL, `pic_url` varchar(100) DEFAULT NULL, `target_url` varchar(100) DEFAULT NULL, `introduction` varchar(1000) DEFAULT NULL, `download_url` text, `create_time` datetime DEFAULT NULL, PRIMARY KEY (`id`) ) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8;

 

2) 運行 MovieSpider.py 文件, 開啟爬蟲(當前只爬取1000頁數據, 總共約10萬部電影)

3)查詢數據庫表, 觀察爬取數據清空

select * from movie;

四、github代碼地址

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM