Python爬蟲案例教學演示:爬取“絕對領域”二次元小姐姐圖片


Python爬蟲、數據分析、網站開發等案例教程視頻免費在線觀看

https://space.bilibili.com/523606542 

 

前言

今天帶大家采集一個二次元圖片網站, 里面漂亮的小姐姐層出不窮,圖片的數據量也是比較大的, 來一睹為快吧! !

 

 

開發環境介紹:

python 3.6
pycharm
requests
parsel
os

爬蟲案例數據采集一般步驟:

  1. 找數據對應的鏈接地址

  2. 代碼發送地址的請求

  3. 數據解析<解析我們要的數據>

  4. 數據保存(本地)

1. 首先第一步,找到對應的鏈接地址

因為是靜態網頁,所以數據很容易就找到了

 

 

 

# url編碼: 中文在請求和響應的時候轉碼, http協議默認不支持中文, 由 % 字母 數字
request_address = f'https://www.jdlingyu.com/tag/%e5%b0%91%e5%a5%b3/page/{page}'
# 代表瀏覽器身份標識
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}

 

2. 代碼發送地址的請求

response = requests.get(url=request_address, headers=headers)
html_data = response.text  # 字符串 -- 正則
print(html_data)

 

請求一下,看看對不對

 

 

3. 數據解析<解析我們要的數據> html數據, xpath

selector = parsel.Selector(html_data)  # 轉換數據類型

lis = selector.xpath('//div[@id="post-list"]/ul/li')  # 所有相冊的標簽

for li in lis:  # 一個一個操作相冊標簽對象
    pic_title = li.xpath('.//h2/a/text()').get()  # 相冊標題
    pic_href = li.xpath('.//h2/a/@href').get()  # 相冊地址
    print(pic_title, pic_href)

 

 

 

4. 保存數據

with open(f'img\\{pic_title}\\{pic_name}', mode='wb') as f:
    f.write(img_data)
    print('保存完成:', pic_name)

 

 

完整源碼加Python學習交流群:1039649593找管理員免費獲取

運行完整代碼

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM