Python爬蟲、數據分析、網站開發等案例教程視頻免費在線觀看
https://space.bilibili.com/523606542
前言
今天帶大家采集一個二次元圖片網站, 里面漂亮的小姐姐層出不窮,圖片的數據量也是比較大的, 來一睹為快吧! !

開發環境介紹:
python 3.6
pycharm
requests
parsel
os
爬蟲案例數據采集一般步驟:
-
找數據對應的鏈接地址
-
代碼發送地址的請求
-
數據解析<解析我們要的數據>
-
數據保存(本地)
1. 首先第一步,找到對應的鏈接地址
因為是靜態網頁,所以數據很容易就找到了

# url編碼: 中文在請求和響應的時候轉碼, http協議默認不支持中文, 由 % 字母 數字 request_address = f'https://www.jdlingyu.com/tag/%e5%b0%91%e5%a5%b3/page/{page}' # 代表瀏覽器身份標識 headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
2. 代碼發送地址的請求
response = requests.get(url=request_address, headers=headers) html_data = response.text # 字符串 -- 正則 print(html_data)
請求一下,看看對不對
3. 數據解析<解析我們要的數據> html數據, xpath
selector = parsel.Selector(html_data) # 轉換數據類型 lis = selector.xpath('//div[@id="post-list"]/ul/li') # 所有相冊的標簽 for li in lis: # 一個一個操作相冊標簽對象 pic_title = li.xpath('.//h2/a/text()').get() # 相冊標題 pic_href = li.xpath('.//h2/a/@href').get() # 相冊地址 print(pic_title, pic_href)

4. 保存數據
with open(f'img\\{pic_title}\\{pic_name}', mode='wb') as f: f.write(img_data) print('保存完成:', pic_name)
完整源碼加Python學習交流群:1039649593找管理員免費獲取
運行完整代碼
