python爬取圖片遇見src亂碼: data:image/png;base64
向爬取自己喜歡的圖片,但是在爬取下來的代碼當中圖片的src會出現亂碼的情況:data:image/png;base64。搞了我好長時間,試過偽裝headers,也試過通過修改網頁js的內容來讓img的src顯示出來,也試過修改div的display屬性,但是全部都沒用,最后了解了才知道,這是Data URI scheme。
一:Data URI scheme:
目的是將一些小的數據,直接嵌入到網頁中,從而不用再從外部文件載入。比如上面那串字符,其實是一張小圖片,將這些字符復制黏貼到火狐的地址欄中並轉到,就能看到它了,一張1X36的白灰png圖片
數據分類:data表示取得數據的協定名稱,image/png 是數據類型名稱,base64 是數據的編碼方法,逗號后面就是這個image/png文件base64編碼后的數據
這樣寫的好處(對我這種萌新來說簡直災難):圖像文件的內容直接寫在了HTML 文件中,節省了一個HTTP 請求。
二:使用python爬取解決的方法
解決思路:
它就是普通的 <img src="...." /> 屬性值。使用你的能夠解析 html 的解析器,找到 image element,取得它的 src 屬性值,將base64 格式的字符串轉為 byte[ ],然后放到 MemoryStream 中供 Image 控件讀取,畫出圖片。(如果只是輸出,得到 byte[ ] 數據結構即可)
舉例:
string txt = @""; var tmpArr = txt.Split(','); byte[] bytes = Convert.FromBase64String(tmpArr[1]); using (MemoryStream ms = new MemoryStream(bytes)) { ms.Write(bytes, 0, bytes.Length); var img = Image.FromStream(ms, true); img.Save("demo.png"); }
爬取圖片的時候,使用python中的bs64來編碼Data URI:
# 使用BeautifulSoup來獲取對應的標簽的屬性值:使用點get,里面再加一個屬性值的字符串就好了,ok strings=str(bs.find(name="img",attrs={"class":"comicimg"}).get('src')) #解碼bs64格式的Data URI ''' 1.pip導入base64的包,這個不用pip下載,pycharm自帶 2.將src的前面編碼方式和后面的碼分離出來,兩者使用逗號相連,而且只有一個 3.使用b64decode編碼器編譯,並儲存到字符節數組data里面 4.將其字符集寫入文件當中,就會生成所需要的文件(為什么導出來的圖片是白板??) ''' head1,encode=strings.split(',',1) data=b64decode(encode) with open("image_src.png","wb") as f: f.write(data) f.close()
注意:本人暫時還沒有成功。。。。。。待續。。。