Python爬蟲實戰:知音漫客漫畫采集


前言

這年頭看啥都要會員,各種VIP,沒有VIP各種時長廣告,就算你開了VIP還會有超級VIP出來,簡直無止境【絕對沒有內涵誰】,作為一個資深白嫖者,白嫖一時爽,一直白嫖一直爽【咳咳,該用還得開,不要學我】

恰巧同事找我借某平台VIP,看個漫畫都要VIP了,於是呢我就給爬了下來,所以就有了這篇文章。為了過審,我把爬取VIP的內容全部去掉了,肯定有人會問,既然爬的都是公開內容,那么我在網站上直接看不就得了?這種問題回多了就沒意思了,直接先去看我前面的爬蟲教程文章。

廢話不多說,直接進入今天 的主題

 

爬取目標

網址:國內知名原創動漫平台_斗破蒼穹漫畫官網_知音漫客網

image.png

效果展示

 

工具准備

開發工具:pycharm 開發環境:python3.7, Windows11 使用工具包:requests

項目思路解析

選擇自己需要的動漫這里辣條選擇的是斗破蒼穹,動漫看蕭炎裝逼是在太難受了,三年之約硬生生更新了快5年,想辦法把它的漫畫全給采集了一次到位,搜索需要的漫畫名,獲取首頁的數據信息進行查看,先分析數據是否為加載的動態數據。

image.png

需要獲取的數據抓包並未獲取到,嘗試進入漫畫頁面,看看能不能獲取到數據 知音漫客的很多數據都是vip的需要付費觀看,但是還是會加載出數據信息,數據里依舊會有我們的漫畫信息。

image.png

所以說付費的內容不可怕,重點能找的到就好了(狗頭保命.jpg) 當前的數據就是知音漫客的圖片地址。

image.png

知道數據信息后開始分析目標網址,怎么控制數據的翻頁 https://www.kanman.com/api/getchapterinfov2?product_id=1&productname=kmh&platformname=pc&comic_id=25934&chapter_newid=dpcq_399h&isWebp=1&quality=middle 翻頁的請求可以明顯看出是由chapter_newid控制的后面的數字就是目標的章節信息,翻譯的網址也能正常構建出來,剩下的就是解析數據保存數據了。

簡易源碼分享

import requests import os ​ ​ def download(img_url_list, title):    # 每個章節   設定單獨的文件夾    path = '斗破蒼穹/' + title    if not os.path.exists(path):        os.mkdir(path)    i = 0    for img_url in img_url_list:        res = requests.get(img_url).content        print(res)        f = open(path + '/' + str(i) + '.jpg', 'wb')        f.write(res)        i += 1        print(f'正在下載:{title}第{str(i)}張') ​ ​ ​ ​ ​ def parse_data(url):    response = requests.get(url).json()    chapter_name = response['data']['current_chapter']['chapter_name']    chapter_img_list = response['data']['current_chapter']['chapter_img_list']    download(chapter_img_list, chapter_name) ​ ​ ​ ​ ​ ​ if __name__ == '__main__':    for i in range(30, 800):        url = 'https://www.kanman.com/api/getchapterinfov2?product_id=1&productname=kmh&platformname=pc&comic_id=25934&chapter_newid=dpcq_{}h&isWebp=1&quality=middle'.format(i)        parse_data(url)

 一個真事:我在一個接單群,有個朋友接了一個爬蟲的單,然后進去了【沒錯就是進局子里了】,事情大概就是他爬取了一個婚戀交友平台網站的一些信息的單子,然后發布這個單子的人,利用這些數據去詐騙獲利了,所以我這個朋友也跟着進去了,現在還沒結果。

搞爬蟲一定要注意界限,遵法守紀!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM