Python練手項目:20行爬取全王者全英雄皮膚


引言

   王者榮耀大家都玩過吧,沒玩過的也應該聽說過,作為時下最火的手機MOBA游戲,咳咳,好像跑題了。我們今天的重點是爬取王者榮耀所有英雄的所有皮膚,而且僅僅使用20行Python代碼即可完成。
   文中源代碼在文章末尾,可自行復制粘貼。
     另外注意:很多人學Python過程中會遇到各種煩惱問題,沒有人幫答疑容易放棄。為此小編建了個Python全棧免費答疑.裙 :七衣衣九起起巴而五(數字的諧音)轉換下可以找到了,不懂的問題有老司機解決里面還有最新Python教程項目可拿,,一起相互監督共同進步!

准備工作

   爬取皮膚本身並不難,難點在於分析,我們首先得得到皮膚圖片的url地址,話不多說,我們馬上來到王者榮耀的官網:

 

 

   我們點擊英雄資料,然后隨意地選擇一位英雄,接着F12打開調試台,找到英雄原皮膚的圖片地址:

 

 
image.png

   接着,我們切換一下英雄的皮膚,會發現圖片地址沒有明顯的變化,只是最后的數字序號改變了,我們將兩個皮膚圖片的地址放在一起比較一下:

http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/523/523-bigskin-1.jpg http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/523/523-bigskin-2.jpg 

   我們可以猜測,對於同一個英雄的皮膚圖片地址,僅僅是最后的數字序號不同,為了證實我們的猜想,我們可以繼續找出一個英雄的全皮膚圖片,找一個皮膚多一點的,例如我這里找的是孫尚香,將它的所有皮膚圖片地址放在一起比較:

http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-1.jpg http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-2.jpg http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-3.jpg http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-4.jpg http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-5.jpg http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-6.jpg http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/111/111-bigskin-7.jpg 

   由此我們得出結論,同一個英雄的皮膚圖片路徑從1開始依次遞增,我們再來看看不同英雄之間是如何區分的。會發現,不管皮膚圖片如何改變,瀏覽器上方的地址始終是不變的,所以我們將兩個不同英雄的url地址放到一起比較一下:

https://pvp.qq.com/web201605/herodetail/523.shtml https://pvp.qq.com/web201605/herodetail/111.shtml 

   乍一看,似乎沒有什么規律,但我們要從這里發現一點,就是最后的數字其實控制的是哪個英雄,我們暫且認為它是英雄的編號,可不幸的是,英雄編號之間好像沒有什么規律,不用着急,我們再到官網上找找線索。

在英雄資料界面,我們打開F12調試台,通過抓取網絡請求,我發現了幾個文件:

 

 
image.png

   點擊網絡,然后點擊XHR,就可以看到這幾個文件,看到文件的名字大家應該就清楚了,這些文件存儲的就是英雄列表信息,我們點擊查看一下:
在這里插入圖片描述
   沒錯,這里存儲的就是英雄信息,包括英雄的名字,英雄編號等等其它信息,我們可以試試這些信息的准確性,例如小喬的ename,也就是英雄編號為106,所以按照之前的想法,英雄小喬的詳情地址應為:https://pvp.qq.com/web201605/herodetail/106.shtml
經過嘗試后發現確實如此。

   到這里,准備工作就完成了,其實進行到這里,整個工程就完成了一半了,接下來就是代碼的實現了。

代碼實現

   首先我們創建一個Python文件,然后導入osrequests模塊。
按照前面的步驟,我們首先需要獲取到英雄列表信息,也就是herolist.json文件,文件地址為:https://pvp.qq.com/web201605/js/herolist.json,這在調試台中可以找到。
那么我們首先就要通過這個地址獲取到英雄列表信息的json數據,然后解析json數據,將有用的信息提取出來:

url = 'https://pvp.qq.com/web201605/js/herolist.json' herolist = requests.get(url) # 獲取英雄列表json文件 herolist_json = herolist.json() # 轉化為json格式 hero_name = list(map(lambda x: x['cname'], herolist.json())) # 提取英雄的名字 hero_number = list(map(lambda x: x['ename'], herolist.json())) # 提取英雄的編號 

   這樣我們就獲取到了英雄名字和編號,可以輸出測試一下:
拿到了英雄編號之后,事情就變得很簡單了,只需拼接一下url地址即可:
http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/' + hero_number + '/' + hero_number + '-bigskin-1.jpg,這樣可以獲取到所有英雄的皮膚圖片了,但是這里會有一個問題,英雄的皮膚是有多有少的,有的英雄只有兩個皮膚,有的卻有六七個,所以圖片編號的最大值我們並不清楚,這里我采用了一個比較笨的辦法,就是讓一個變量從1到10依次遞增去拼接圖片地址,如果遇到沒有的圖片我們就不處理,因為沒有一個英雄的皮膚超過了10個,所以我們就能獲取到所有的圖片了。下面看代碼實現:

# 下載圖片 def downloadPic(): i = 0 for j in hero_number: # 創建文件夾 os.mkdir("C:\\Users\\Administrator\\Desktop\\wzry\\" + hero_name[i]) # 進入創建好的文件夾 os.chdir("C:\\Users\\Administrator\\Desktop\\wzry\\" + hero_name[i]) i += 1 for k in range(10): # 拼接url onehero_link = 'http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/' + str(j) + '/' + str( j) + '-bigskin-' + str(k) + '.jpg' im = requests.get(onehero_link) # 請求url if im.status_code == 200: open(str(k) + '.jpg', 'wb').write(im.content) # 寫入文件 

   實現非常地簡單,代碼注釋也已經寫得很清楚了,有了這個函數之后,我們只需調用一下,就可以下載圖片了,整個程序的完整代碼如下:

import os import requests # python0基礎小白加群:456926667,獲取更多的python練手項目、練習,以及學習交流。 url = 'https://pvp.qq.com/web201605/js/herolist.json' herolist = requests.get(url) # 獲取英雄列表json文件 herolist_json = herolist.json() # 轉化為json格式 hero_name = list(map(lambda x: x['cname'], herolist.json())) # 提取英雄的名字 hero_number = list(map(lambda x: x['ename'], herolist.json())) # 提取英雄的編號 # 下載圖片 def downloadPic(): i = 0 for j in hero_number: # 創建文件夾 os.mkdir("C:\\Users\\Administrator\\Desktop\\wzry\\" + hero_name[i]) # 進入創建好的文件夾 os.chdir("C:\\Users\\Administrator\\Desktop\\wzry\\" + hero_name[i]) i += 1 for k in range(10): # 拼接url onehero_link = 'http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/' + str(j) + '/' + str( j) + '-bigskin-' + str(k) + '.jpg' im = requests.get(onehero_link) # 請求url if im.status_code == 200: open(str(k) + '.jpg', 'wb').write(im.content) # 寫入文件 downloadPic() 

   除去注釋,接近20行的代碼我們就完成了王者榮耀全英雄皮膚的爬取,是不是非常簡單呢?我們可以測試一下這個程序,首先要在桌面上創建一個文件夾,名為wzry,因為這里的代碼我已經寫死了,如果要修改的話大家也可以進行修改,文件夾創建完成后點擊運行即可,等待片刻,圖片就全部下載完成了。

 

 
image.png
 
image.png
 

   對於程序中json字符串的解析,我們還可以使用jsonpath模塊來進行,使用該模塊能夠更加快捷地獲取到我們想要的信息,解析方式如下:

hero_name = jsonpath.jsonpath(html_json, "$..cname")
hero_number = jsonpath.jsonpath(html_json, "$..ename")

   該方法接收一個json字符串和解析規則,$…cname則表示從根目錄下找尋任意位置的以cname為鍵的值,並放入字典中。
結尾

   爬蟲是非常有趣的,因為它非常直觀,視覺沖擊感強,寫出來也很有成就感,爬蟲雖然強大,但千萬不能隨意爬取隱私信息。

   最后注意:很多人學Python過程中會遇到各種煩惱問題,沒有人幫答疑容易放棄。為此小編建了個Python全棧免費答疑.裙 :七衣衣九起起巴而五(數字的諧音)轉換下可以找到了,不懂的問題有老司機解決里面還有最新Python教程項目可拿,,一起相互監督共同進步!

本文的文字及圖片來源於網絡加上自己的想法,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯系我們以作處理。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM