Go語言之高級篇Beego框架之爬蟲項目實戰


一、爬蟲項目

 1、爬蟲基礎

a、網頁上面會有相同的數據

b、去重處理

布隆過濾器
哈希存儲

c、標簽匹配:

正則表達式
beautiful soup或lxml這種標簽提取庫

d、動態內容

phantomjs

selenium

 

二、爬豆瓣網電影

網站地址:https://www.douban.com/

准備工作:

1、在數據庫中創建表

movie.sql

CREATE TABLE `movie_info` (
  `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
  `movie_id` int(11) unsigned NOT NULL COMMENT '電影id',
  `movie_name` varchar(100) COMMENT '電影名稱',
  `movie_pic` varchar(200) COMMENT '電影圖片',
  `movie_director` varchar(50) COMMENT '電影導演',
  `movie_writer` varchar(50) COMMENT '電影編劇',
  `movie_country` varchar(50) COMMENT '電影產地',
  `movie_language` varchar(50) COMMENT '電影語言',
  `movie_main_character` varchar(50) COMMENT '電影主演',
  `movie_type` varchar(50) COMMENT '電影類型',
  `movie_on_time` timestamp DEFAULT '0000-00-00 00:00:00' COMMENT '電影上映時間',
  `movie_span` varchar(20) COMMENT '電影時長',
  `movie_grade` varchar(5) COMMENT '電影評分',
  `remark` varchar(500) DEFAULT '' COMMENT '備注',
  `_create_time` timestamp NOT NULL DEFAULT '0000-00-00 00:00:00' COMMENT '創建時間',
  `_modify_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '修改時間',
  `_status` tinyint(1) DEFAULT '1',
  PRIMARY KEY (`id`),
  KEY `idx_movie_id` (`movie_id`),
  KEY `idx_create_time` (`_create_time`),
  KEY `idx_modify_time` (`_modify_time`)
) ENGINE=InnoDB AUTO_INCREMENT=20 DEFAULT CHARSET=utf8 COMMENT='電影信息表';

2、創建一個新項目

D:\GoFiles\src\web>bee new crawl_movice
______
| ___ \
| |_/ /  ___   ___
| ___ \ / _ \ / _ \
| |_/ /|  __/|  __/
\____/  \___| \___| v1.10.0
2019/02/16 10:49:19 INFO     ▶ 0001 Creating application...
        create   D:\GoFiles\src\web\crawl_movice\
        create   D:\GoFiles\src\web\crawl_movice\conf\
        create   D:\GoFiles\src\web\crawl_movice\controllers\
        create   D:\GoFiles\src\web\crawl_movice\models\
        create   D:\GoFiles\src\web\crawl_movice\routers\
        create   D:\GoFiles\src\web\crawl_movice\tests\
        create   D:\GoFiles\src\web\crawl_movice\static\
        create   D:\GoFiles\src\web\crawl_movice\static\js\
        create   D:\GoFiles\src\web\crawl_movice\static\css\
        create   D:\GoFiles\src\web\crawl_movice\static\img\
        create   D:\GoFiles\src\web\crawl_movice\views\
        create   D:\GoFiles\src\web\crawl_movice\conf\app.conf
        create   D:\GoFiles\src\web\crawl_movice\controllers\default.go
        create   D:\GoFiles\src\web\crawl_movice\views\index.tpl
        create   D:\GoFiles\src\web\crawl_movice\routers\router.go
        create   D:\GoFiles\src\web\crawl_movice\tests\default_test.go
        create   D:\GoFiles\src\web\crawl_movice\main.go
2019/02/16 10:49:20 SUCCESS  ▶ 0002 New application successfully created!

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM