Selenium是不少爬蟲工程師都會用的一個工具,它對頁面元素的屬性,文本等的提取都做的不錯,但有一個缺點是只能獲取到img元素的鏈接而不是圖片二進制(即便在訪問時已經加載過了一次圖片)。想把指定的img保存到本地,只能使用獲取的鏈接手動下載,不僅多花費了不少時間,而且在某些限制外鏈的站點還可能遇到下載失敗的情況。本文介紹一個直接在selenium中保存圖片的方法。
原理其實有點取巧,是通過selenium的execute_script方法,注入一段腳本令網頁所有img都轉換為base64格式,如此一來圖片的二進制信息就被編碼為base64寫在了<img>的src屬性中。代碼如下
js = """ _fetch = function(i,src){ return fetch(src).then(function(response) { if(!response.ok) throw new Error("No image in the response"); var headers = response.headers; var ct = headers.get('Content-Type'); var contentType = 'image/png'; if(ct !== null){ contentType = ct.split(';')[0]; } return response.blob().then(function(blob){ return { 'blob': blob, 'mime': contentType, 'i':i, }; }); }); }; _read = function(response){ return new Promise(function(resolve, reject){ var blob = new Blob([response.blob], {type : response.mime}); var reader = new FileReader(); reader.onload = function(e){ resolve({'data':e.target.result, 'i':response.i}); }; reader.onerror = reject; reader.readAsDataURL(blob); }); }; _replace = function(){ for (var i = 0, len = q.length; i < len; i++) {imgs[q[i].item].src = q[i].data;} } var q = []; var imgs = document.querySelectorAll('img'); for (var i = 0, len = imgs.length; i < len; i++) { _fetch(i,imgs[i].src).then(_read).then(function(data){ q.push({ 'data': data.data, 'item': data.i, }); }); } setTimeout(_replace, 1000 ); """ driver.execute_script(js)
fetch方法請求圖片時瀏覽器會自動讀取本地緩存,所以不會發生網絡通訊;_replace延遲1秒執行是為了等待隊列加載完成。
在driver.get(URL)后執行此腳本,源代碼中所有<img>即變為base64編碼。再附上一段Python的base64轉文件腳本
imgsrc = "" import base64 def base64img2file(imgsrc: str): suffix = imgsrc.split(';')[0][11:] with open("demo."+suffix, 'wb') as f: f.write(base64.b64decode(imgsrc.split(',')[1]))