python爬取電影網站信息

本文轉載自查看原文 2019-10-30 18:22 388 爬蟲

一、爬取前提
1）本地安裝了mysql數據庫 5.6版本
2）安裝了Python 2.7

二、爬取內容
 電影名稱、電影簡介、電影圖片、電影下載鏈接

三、爬取邏輯
1）進入電影網列表頁， 針對列表的html內容進行數據提取 電影名稱，電影簡介， 電影圖片， 電影詳情URL， 插入數據庫表
2）通過步驟1獲取到的電影詳情URL， 進入電影詳情頁， 獲取下載鏈接， 更新數據庫的下載鏈接字段
3）循環執行如上過程，直到數據被爬取完或者循環完畢。

三、爬取步驟
1）本地初始化數據庫腳本 database.sql

SET FOREIGN_KEY_CHECKS=0;

-- ----------------------------
-- Table structure for movie
-- ----------------------------
DROP TABLE IF EXISTS `movie`; CREATE TABLE `movie` ( `id` bigint(20) NOT NULL AUTO_INCREMENT, `title` varchar(100) DEFAULT NULL, `pic_url` varchar(100) DEFAULT NULL, `target_url` varchar(100) DEFAULT NULL, `introduction` varchar(1000) DEFAULT NULL, `download_url` text, `create_time` datetime DEFAULT NULL, PRIMARY KEY (`id`) ) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8;

2) 運行 MovieSpider.py 文件，開啟爬蟲（當前只爬取1000頁數據，總共約10萬部電影）

3）查詢數據庫表，觀察爬取數據清空

select * from movie;

四、github代碼地址

https://github.com/mhlmelon/SpiderMoviePython

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 爬取電影網站爬取某電影網站(未寫完) 電影網站推薦 Flask開發微電影網站(一) netflix中文電影網站 Django實現微電影網站 Flask開發微電影網站(三) 基於Spark的電影推薦系統（電影網站）爬取4567電影網 Python爬蟲爬取1905電影網視頻電影並存儲到mysql數據庫