前言
之前簡單學習過python爬蟲基礎知識,並且用過scrapy框架爬取數據,都是直接能用xpath定位到目標區域然后爬取。可這次碰到的需求是爬取一個用asp.net編寫的教育網站並且將教學ppt一次性爬取下來,由於該網站部分內容渲染采用了js,所以比較難用xpath直接定位,同時發起下載ppt的請求比較難找。
經過琢磨和嘗試后爬取成功,記錄整個爬取思路供自己和大家學習。文章比較詳細,對於一些工具包和相關函數的使用會在源代碼或正文中添加注釋來介紹簡單相關知識點,如果某些地方看不懂可以通過注釋及時去查閱簡單了解,然后繼續閱讀。(尾部有源代碼,全文僅對一些敏感的個人信息數據進行了省略。)
一、主要思路
1、觀察網站
-
研究從進入網站到成功下載資源需要幾次url跳轉。
-
先進入目標網站首頁,依次點擊教材->選擇初中->選擇教輔->選擇學科->xxx->資源列表->點擊下載ppt。
目標網站首頁 資源列表 資源詳情頁 -
分析url每步跳轉以及資源下載是否需要cookie等header信息。
通過一步步跳轉進入到最終的資源詳情頁,最終點擊下載資源按鈕時網站提示並且跳轉到了登陸頁面,說明發起下載的請求可能需要攜帶cookie等頭部信息。
2、編寫爬蟲代碼
- 登陸賬戶,獲取到識別用戶的cookies
- 請求資源列表頁面,定位獲得左側目錄每一章的跳轉url。
- 請求每個跳轉url,定位資源列表頁面右側下載資源按鈕的url請求(注意2、3步是圖資源列表)
- 發起url請求,進入資源詳情頁,定位獲得下載資源按鈕的url請求(第4步是圖資源詳情頁)
- 發起請求,將下載的資源數據寫入文件。
這是本次爬蟲實戰編寫代碼的大致思路,具體每次步驟碰到的難點以及如何解決在接下來的實戰介紹中會進行詳細分析。
二、爬蟲實戰
1、登陸獲取cookie
-
首先網站登陸,獲取到cookie和user-agent,作為之后請求的頭部。設置全局變量HEADER,方便調用
HEADER = { 'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36(KHTML, like Gecko)Chrome/93.0.4577.63 Safari/537.36", 'Cookie':"xxxxxxx", }
2、請求資源列表頁面,定位獲得左側目錄每一章的跳轉url(難點)
-
首先使用requests發起資源列表頁面的請求(資源列表頁面url:http://www.guishiyun.com/res_list.aspx?rid=9&tags=2-24,1-21,3-70,12-96)
資源列表 BASE_URL = "http://www.guishiyun.com" #賦值網站根域名作為全局變量,方便調用 res = requests.get(BASE_URL + "/res_list.aspx?rid=9&tags=1-21,12-96,2-24,3-70", headers=HEADER).text #發起請求,獲得資源列表頁面的html
-
難點:定位獲得左側目錄每一章的跳轉url
-
正常思路:打開瀏覽器控制台,查看網頁源代碼,尋找頁面左側課程目錄的章節在哪個元素內,用xpath定位。
-
使用xpath定位,發現無法定位到這個a標簽,在確認xpath語法無錯誤后,嘗試打印上個代碼段中的res變量(也就是該html頁面),發現返回的頁面和控制台頁面不同。
-
轉換思路:可能該頁面使用其他渲染方式渲染了html,導致瀏覽器控制台看到的html和請求返回的不一樣(瀏覽器會將渲染后的頁面呈現),打開控制台,查看頁面源代碼,搜素九年級上冊(左側目錄標題),發現在js的script腳本中,得出該頁面應該是通過JS渲染DOM得來的,該js對象中含有跳轉的url。
-
xpath行不通后,我選擇采用正則表達式的方式直接篩選出該代碼。
import re #導入re 正則表達式包 pattern = r'var zNodes = (\[\s*[\s\S]*\])' #定義正則表達式,規則:找出以"var zNodes = [ \n"開頭,含有"[多個字符或空格]"的字符,並且以"]"結尾的文本 (相關知識不熟悉的可以簡單看看菜鳥的正則表達式) result = re.findall(pattern, res, re.M | re.I) #python正則表達式,查找res中符合pattern規則的文本。re.M多行匹配,re.I忽略大小寫。
將前兩個代碼塊封裝一下
def getRootText(): res = requests.get(BASE_URL + "/res_list.aspx?rid=9&tags=1-21,12-96,2-24,3-70", headers=HEADER).text #請求 pattern = r'var zNodes = (\[\s*[\s\S]*\])' result = re.findall(pattern, res, re.M | re.I) return result[0] #獲得篩選結果 [{id: 1322, pI': 1122, name: '九年級上冊', open: False, url: ?catId=1322&tags=1-21%2c12-96%2c2-24%2c3-70&rid=9#bottom_content', target: '_self'}, {...},{...}]
-
將結果轉換成dict類型,方便遍歷,獲得每個章節的url。瀏覽上面得出的result發現,
{id:1322,pId:xxx...}
並不是標准的json格式(key沒有引號),此時使用第三方包demjson,用於將不規則的json字符串變成python的dict對象。import demjson def textToDict(text): data = demjson.decode(text) #獲得篩選結果[{'id': 1322, 'pId': 1122, 'name': '九年級上冊', 'open': False, 'url': '?catId=1322&tags=1-21%2c12-96%2c2-24%2c3-70&rid=9#bottom_content', 'target': '_self'}, {...},{...}] return data
-
遍歷轉換好的dict數據,獲得左側目錄每一章的url。此處需要注意的是,本人目的是下載每一章的ppt課件,所以我只需要請求每一個總章節的url(即請求第 1 章,第 2 章,不需要請求 1.1反比例函數),右邊就會顯示該章節下的所有ppt課件。所以我在遍歷的時候,可以通過正則表達式,篩選出符合名稱要求的url,添加進list並且返回。
def getUrls(dictData): list = [] pattern = r'第[\s\S]*?章' #正則規則:找出以"第"開頭,中間包含多個空格和文字,以"章"結尾的文本 for data in dictData: #遍歷上文轉換得到的dict數組對象 if len(re.findall(pattern, data['name'])) != 0: list.append(data['url']) #如果符合則將該url添加到列表中 return list
-
3、請求每個跳轉url,定位右側下載資源按鈕,獲得url請求
-
遍歷從上面獲得的url列表,通過拼接網站域名獲得網站url,然后發起請求
def download(urlList): # urlList是上面獲得的list for url in urlList: res = requests.get(BASE_URL + '/res_list.aspx/' + url, HEADER).text #完整url請求,獲得頁面html
-
查看源代碼,發現可以用xpath定位(目標是獲取到
onclick
里的url)分析:該按鈕元素 (
<input type=button>
)在<div class='res_list'><ul><li><div class="button_area">
里。xpath定位代碼如下:root = etree.HTML(res) # 構造一個xpath對象 liList = root.xpath('//div[@class="res_list"]//ul//li') #xpath語法,返回多個<li>及子元素對象的列表
-
遍歷
liList
,獲得資源名字(為之后下載寫入ppt的文件命名)以及跳轉到資源詳情下載頁的urlfor li in liList: name = li.xpath('.//div[@class="info_area"]//div//h1//text()') name = name[0] # xpath返回的是包含name的列表,從中提取字符串 print(name): 1.1 反比例函數 btnurl = li.xpath('.//div[@class="button_area"]//@onclick') # 獲得onlick內的字符串 "window.open('res_view.aspx....')" pattern = r'\(\'([\s\S]*?)\'\)'# 只需要window.open內的url,所以采用正則提取出來。 btnurl1 = re.findall(pattern, btnurl[0])
4、跳轉到資源詳情下載頁,獲得真正的下載請求(難點)
-
上文代碼段中獲取到url之后依舊是拼接域名,然后通過完整url發起請求,獲得資源詳情下載頁面的html數據。
res1 = requests.get(BASE_URL + '/' + btnurl1[0], HEADER).text
-
查看源代碼后按鈕本身只是觸發表單提交,而且是
post
請求。點擊下載資源按鈕,使用瀏覽器控制台抓包查看post請求需要的參數。使用
ctrl+f
在網頁源代碼中搜素這幾個參數,發現存在於<input>
標簽中,只是被css
隱藏了,所以接下來就是簡單的用xpath
和正則表達式將post
請求中的url
和這幾個參數值獲得,然后添加到header
中發起請求就行了。VIEWSTATE = '__VIEWSTATE' # 全局變量,定義屬性名稱 VIEWSTATEGENERATOR = '__VIEWSTATEGENERATOR' EVENTVALIDATION = '__EVENTVALIDATION' BUTTON = 'BUTTON' BUTTON_value = '下 載 資 源'
root1 = etree.HTML(res1) # res1是之前代碼段請求的html文本 form = root1.xpath('//form[@id="form1"]') # xpath定位到form action = root1.xpath('//form[@id="form1"]/@action') action = re.findall(r'(/[\S]*?&[\S]*?)&', action[0], re.I) #正則表達式獲取form中action函數里的url VIEWSTATE_value = form[0].xpath( './/input[@name="__VIEWSTATE"]//@value') #獲取參數值 VIEWSTATEGENERATOR_value = form[0].xpath( './/input[@name="__VIEWSTATEGENERATOR"]//@value')#獲取參數值 EVENTVALIDATION_value = form[0].xpath( './/input[@name="__EVENTVALIDATION"]/@value')#獲取參數值 data = { # post提交所需要的data參數 VIEWSTATE: VIEWSTATE_value, VIEWSTATEGENERATOR: VIEWSTATEGENERATOR_value, EVENTVALIDATION: EVENTVALIDATION_value, BUTTON: BUTTON_value } res2 = requests.post(BASE_URL + action[0],data=data,headers=HEADER).text #發起請求
-
此時發起請求之后發現返回的仍然是網頁html,如果打開控制台工具,查看點擊按鈕發起請求后的頁面。
同時看到由於是更新頁面,還產生了許多其他各種各樣的請求,一時間很難找到真正下載文件的請求是哪一個。
-
此時筆者想到的是一個笨方法,通過抓包工具,對所有請求進行攔截,然后一個個請求陸續通過,最終就可以找到下載請求。這里筆者用到的是
BurpSuite
工具,陸續放行請求,觀察頁面是否有下載界面出現,找到了url:/code/down_res.ashx?id=xxx
,同時在瀏覽器控制台查找這一串字符串,最終在post
請求返回的頁面中找到了這個字符串的位置不用多說,直接正則獲取
downUrl = re.search(r'\<script\>[\s]*?location\.href\s=\s\'([\S]*?)\'',res2,re.I) #正則篩選出url downUrl_text = downUrl.group(1)
-
發起請求,並且將數據讀寫進指定的目錄中。
downPPT = requests.get(BASE_URL+downUrl_text,headers=HEADER) with open(f'./test/{name}.ppt','wb') as f: #將下載的數據以二進制的形式寫入到當前項目下test文件夾中,並且做好命名。name參數在上文中已經獲得。 f.write(downPPT.content)
-
結果
5、添加額外功能,實現增量爬蟲
-
爬取到一半發現程序終止了,原來該網站對每個賬號每天下載數有限額,而我們的程序每次運行都會從頭開始檢索,如何對已經爬取過的url進行存儲,同時下次程序運行時對已爬取過的url進行識別?這里筆者使用的是通過
redis
進行存儲,原理是對每次下載的url進行存儲,在每次發起下載請求時先判斷是否已經存儲,如果已經存儲則跳過本次循環。if(r.sadd(BASE_URL + action[0],'1')==0): # sadd是redis添加鍵值的方法,如果==0說明已經存在,添加失敗。 continue
6、總源代碼
import re
import requests
from lxml import etree
import demjson
import redis
pool = redis.ConnectionPool(host='localhost', port=6379, decode_responses=True)
r = redis.Redis('localhost',6379,decode_responses=True)
BASE_URL = "http://www.guishiyun.com"
HEADER = {
'User-Agent':
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36",
'Cookie':
"xxx",
}
VIEWSTATE = '__VIEWSTATE'
VIEWSTATEGENERATOR = '__VIEWSTATEGENERATOR'
EVENTVALIDATION = '__EVENTVALIDATION'
BUTTON = 'BUTTON'
BUTTON_value = '下 載 資 源'
def getRootText():
res = requests.get(BASE_URL +
"/res_list.aspx?rid=9&tags=1-21,12-96,2-24,3-70",
headers=HEADER).text
pattern = r'var zNodes = (\[\s*[\s\S]*\])'
result = re.findall(pattern, res, re.M | re.I)
return result[0]
def textToDict(text):
data = demjson.decode(text)
print(data)
return data
def getUrls(dictData):
list = []
pattern = r'第[\s\S]*?章'
for data in dictData:
if len(re.findall(pattern, data['name'])) != 0:
list.append(data['url'])
return list
def download(urlList):
global r
for url in urlList:
res = requests.get(BASE_URL + '/res_list.aspx/' + url, HEADER).text
root = etree.HTML(res)
liList = root.xpath('//div[@class="res_list"]//ul//li')
for li in liList:
name = li.xpath('.//div[@class="info_area"]//div//h1//text()')
name = name[0]
btnurl = li.xpath('.//div[@class="button_area"]//@onclick')
pattern = r'\(\'([\s\S]*?)\'\)'
btnurl1 = re.findall(pattern, btnurl[0])
res1 = requests.get(BASE_URL + '/' + btnurl1[0], HEADER).text
root1 = etree.HTML(res1)
form = root1.xpath('//form[@id="form1"]')
action = root1.xpath('//form[@id="form1"]/@action')
action = re.findall(r'(/[\S]*?&[\S]*?)&', action[0], re.I)
VIEWSTATE_value = form[0].xpath(
'.//input[@name="__VIEWSTATE"]//@value')
VIEWSTATEGENERATOR_value = form[0].xpath(
'.//input[@name="__VIEWSTATEGENERATOR"]//@value')
EVENTVALIDATION_value = form[0].xpath(
'.//input[@name="__EVENTVALIDATION"]/@value')
data = {
VIEWSTATE: VIEWSTATE_value,
VIEWSTATEGENERATOR: VIEWSTATEGENERATOR_value,
EVENTVALIDATION: EVENTVALIDATION_value,
BUTTON: BUTTON_value
}
if(r.sadd(BASE_URL + action[0],'1')==0):
continue
res2 = requests.post(BASE_URL + action[0],data=data,headers=HEADER).text
downUrl = re.search(r'\<script\>[\s]*?location\.href\s=\s\'([\S]*?)\'',res2,re.I)
downUrl_text = downUrl.group(1)
if(r.sadd(BASE_URL+downUrl_text,BASE_URL+downUrl_text,downUrl_text)==0):
continue
downPPT = requests.get(BASE_URL+downUrl_text,headers=HEADER)
with open(f'./test/{name}.ppt','wb') as f:
f.write(downPPT.content)
def main():
text = getRootText()
dictData = textToDict(text)
list = getUrls(dictData)
# download(list)
if __name__ == '__main__':
main()
三、總結
之前只是學習過最簡單最基礎的requests
請求+xpath
定位的爬蟲方式,這次碰巧遇到了較為麻煩的爬蟲實戰,所以寫下爬蟲思路和實戰筆記,加深自己印象的同時也希望能對大家有所幫助。當然這次爬蟲總的來說還是比較簡單,還沒有考慮代理+多線程等情況,同時還可以使用selenium
等瀏覽器渲染工具,就可以不用正則定位了,當然筆者是為了順便學習一下正則。
如果有所幫助,歡迎大家點贊收藏並且進行友好的評論交流。同時歡迎訪問我的個人博客空間進行各種技術學習 歡迎來到菜鳥小白的空間