我用Python爬取了女神视界，爬虫之路永无止境【内附源码】

本文转载自查看原文 2021-10-17 16:23 151 计算机专业/ 爬虫/ 程序人生/ Python

我发现抖音上很多小姐姐就拍个跳舞的视频就火了，大家是冲着舞蹈水平去的吗，都是冲着颜值身材去的，能刷到这篇文章的都是lsp了，我就跟大家不一样了，一个个刷太麻烦了，我直接爬下来看个够，先随意展示两个。

采集目标

爬取目标:女神世界

效果展示

工具使用

使用环境:Python3.7 工具:pycharm 第三方库:requests, re, pyquery

爬虫思路:

获取的是视频数据 (16进制字节)
在这个页面没有视频地址需要进去详情页所有需要从视频播放页开始抓取

使用快捷键 F12 进入开发者控制台:

先不急, 找到视频地址去搜索他看看在哪里有包含:

定位他发现是静态页面返回的数据:

上代码:

def Tools(url):# 封装一个工具函数 用来做请求的   headers = {       'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36 Edg/93.0.961.52'   }   response = requests.get(url, headers=headers)   return response url = 'https://www.520mmtv.com/9614.html' response = Tools(url).text video_url = re.findall(r'url: "(.*?)",', response)[0] # 正则表达式提取 视频地址 video_content = Tools(video_url).content # 视频地址存储 需要在代码同路径 手动创建 短视频文件夹 with open('./短视频/123.mp4', 'ab') as f:   f.write(video_content)  # 下载了一个

def main():   url = 'https://www.520mmtv.com/hd/rewu.html'   response = Tools(url).text   doc = pq(response) # 创建pyquery对象 注意根据css的 class 类选择 和id选择器进行数据提取   i_list = doc('.i_list.list_n2.cxudy-list-formatvideo a').items() # .类选择器 中间有空格的 记得替换成.   meta_title = doc('.meta-title').items() # 标题   for i, t in zip(i_list, meta_title):       href = i.attr('href')       Play(t.text(), href)

全部代码:

import requests import re from pyquery import PyQuery as pq def Tools(url):   headers = {       'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36 Edg/93.0.961.52'   }   response = requests.get(url, headers=headers)   return response def Play(title, url):   # url = 'https://www.520mmtv.com/9614.html'   response = Tools(url).text   video_url = re.findall(r'url: "(.*?)",', response)[0]   video_content = Tools(video_url).content   with open('./短视频/{}.mp4'.format(title), 'ab') as f:       f.write(video_content)       print('{}下载完成....'.format(title)) def main():   url = 'https://www.520mmtv.com/hd/rewu.html'   response = Tools(url).text   doc = pq(response) # 创建pyquery对象 注意根据css的 class 类选择 和id选择器进行数据提取   i_list = doc('.meta-title').items() # .类选择器 中间有空格的 记得替换成.   meta_title = doc('.meta-title').items() # 标题   for i, t in zip(i_list, meta_title):       href = i.attr('href')       Play(t.text(), href) if __name__ == '__main__':   main()

下载比较慢网络不好，你网快的话，就下载快。

效果:

👇🏻 疑难解答可通过搜索下方获取👇🏻

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 网盘不限速下载，加速！永无止境，非常稳定，多个内置下载引擎《大型网站技术架构》读书笔记之六：永无止境之网站的伸缩性架构用Python爬虫爬取“女神吧”上的照片。学无止境气有浩然【Python爬虫】太刺激了！本来只想爬个视频的，谁知自己沦陷进去了（附源码）我爬取了爬虫岗位薪资，分析后发现爬虫真香【Python爬虫】尺度太大了！爬一个专门看小姐姐的网站，写一段紧张刺激的代码（附源码）性能优化，进无止境-内存篇（上）爬虫综合大作业（震惊！爬取了590位微信好友后竟然发现了） python爬虫-淘宝商品密码（图文教程附源码）