用java編寫爬蟲爬取電影

本文轉載自查看原文 2019-10-21 10:04 487 爬蟲

一、爬取前提
1）本地安裝了mysql數據庫
2）安裝了idea或者eclipse等開發工具

二、爬取內容
 電影名稱、電影簡介、電影圖片、電影下載鏈接

三、爬取邏輯
1）進入電影網列表頁， 針對列表的html內容進行數據提取 電影名稱，電影簡介， 電影圖片， 電影詳情URL， 插入數據庫表
2）通過步驟1獲取到的電影詳情URL， 進入電影詳情頁， 獲取下載鏈接， 更新數據庫的下載鏈接字段
3）循環執行如上過程，直到數據被爬取完或者循環完畢。

三、爬取步驟
1）本地初始化數據庫腳本 database.sql

SET FOREIGN_KEY_CHECKS=0;

-- ----------------------------
-- Table structure for movie
-- ----------------------------
DROP TABLE IF EXISTS `movie`;
CREATE TABLE `movie` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT,
  `title` varchar(100) DEFAULT NULL,
  `pic_url` varchar(100) DEFAULT NULL,
  `target_url` varchar(100) DEFAULT NULL,
  `introduction` varchar(1000) DEFAULT NULL,
  `download_url` text,
  `create_time` datetime DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8;

2) 運行 MovieMain.java 函數，開啟爬蟲（當前只爬取1000頁數據，總共約10萬部電影）

3）查詢數據庫表，觀察爬取數據清空

select * from movie;

四、github代碼地址

https://github.com/mhlmelon/SpiderMovie

五、總結

優點：方便調試

不足：java版本速度較慢（每秒爬10條左右），后續會補上python的版本。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python爬蟲-爬取豆瓣電影數據 Python爬蟲爬取BT之家找電影資源如何利用python爬蟲爬取愛奇藝VIP電影？第一個nodejs爬蟲：爬取豆瓣電影圖片爬蟲系列1：Requests+Xpath 爬取豆瓣電影TOP python網絡爬蟲之解析網頁的BeautifulSoup(爬取電影圖片)[三] 喜歡看電影來哦！教你如果使用Python網絡爬蟲爬取豆瓣高分電影！ Java爬蟲：用java爬取小說 Python爬蟲實例：爬取貓眼電影——破解字體反爬 java爬蟲-簡單爬取網頁圖片