我用Python爬取了女神視界，爬蟲之路永無止境【內附源碼】

本文轉載自查看原文 2021-10-17 16:23 151 計算機專業/ 爬蟲/ 程序人生/ Python

我發現抖音上很多小姐姐就拍個跳舞的視頻就火了，大家是沖着舞蹈水平去的嗎，都是沖着顏值身材去的，能刷到這篇文章的都是lsp了，我就跟大家不一樣了，一個個刷太麻煩了，我直接爬下來看個夠，先隨意展示兩個。

采集目標

爬取目標:女神世界

效果展示

工具使用

使用環境:Python3.7 工具:pycharm 第三方庫:requests, re, pyquery

爬蟲思路:

獲取的是視頻數據 (16進制字節)
在這個頁面沒有視頻地址需要進去詳情頁所有需要從視頻播放頁開始抓取

使用快捷鍵 F12 進入開發者控制台:

先不急, 找到視頻地址去搜索他看看在哪里有包含:

定位他發現是靜態頁面返回的數據:

上代碼:

def Tools(url):# 封裝一個工具函數 用來做請求的   headers = {       'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36 Edg/93.0.961.52'   }   response = requests.get(url, headers=headers)   return response url = 'https://www.520mmtv.com/9614.html' response = Tools(url).text video_url = re.findall(r'url: "(.*?)",', response)[0] # 正則表達式提取 視頻地址 video_content = Tools(video_url).content # 視頻地址存儲 需要在代碼同路徑 手動創建 短視頻文件夾 with open('./短視頻/123.mp4', 'ab') as f:   f.write(video_content)  # 下載了一個

def main():   url = 'https://www.520mmtv.com/hd/rewu.html'   response = Tools(url).text   doc = pq(response) # 創建pyquery對象 注意根據css的 class 類選擇 和id選擇器進行數據提取   i_list = doc('.i_list.list_n2.cxudy-list-formatvideo a').items() # .類選擇器 中間有空格的 記得替換成.   meta_title = doc('.meta-title').items() # 標題   for i, t in zip(i_list, meta_title):       href = i.attr('href')       Play(t.text(), href)

全部代碼:

import requests import re from pyquery import PyQuery as pq def Tools(url):   headers = {       'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36 Edg/93.0.961.52'   }   response = requests.get(url, headers=headers)   return response def Play(title, url):   # url = 'https://www.520mmtv.com/9614.html'   response = Tools(url).text   video_url = re.findall(r'url: "(.*?)",', response)[0]   video_content = Tools(video_url).content   with open('./短視頻/{}.mp4'.format(title), 'ab') as f:       f.write(video_content)       print('{}下載完成....'.format(title)) def main():   url = 'https://www.520mmtv.com/hd/rewu.html'   response = Tools(url).text   doc = pq(response) # 創建pyquery對象 注意根據css的 class 類選擇 和id選擇器進行數據提取   i_list = doc('.meta-title').items() # .類選擇器 中間有空格的 記得替換成.   meta_title = doc('.meta-title').items() # 標題   for i, t in zip(i_list, meta_title):       href = i.attr('href')       Play(t.text(), href) if __name__ == '__main__':   main()

下載比較慢網絡不好，你網快的話，就下載快。

效果:

👇🏻 疑難解答可通過搜索下方獲取👇🏻

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 網盤不限速下載，加速！永無止境，非常穩定，多個內置下載引擎《大型網站技術架構》讀書筆記之六：永無止境之網站的伸縮性架構用Python爬蟲爬取“女神吧”上的照片。學無止境氣有浩然【Python爬蟲】太刺激了！本來只想爬個視頻的，誰知自己淪陷進去了（附源碼）我爬取了爬蟲崗位薪資，分析后發現爬蟲真香【Python爬蟲】尺度太大了！爬一個專門看小姐姐的網站，寫一段緊張刺激的代碼（附源碼）性能優化，進無止境-內存篇（上）爬蟲綜合大作業（震驚！爬取了590位微信好友后竟然發現了） python爬蟲-淘寶商品密碼（圖文教程附源碼）