用Python爬蟲爬取“女神吧”上的照片。

本文轉載自查看原文 2017-06-25 22:12 1201 python 爬蟲

爬取的網頁鏈接為https://tieba.baidu.com/p/5177270774

是一個美女警花哦！

所用Python環境為：python 3.3.2 用到的庫為：urllib.request re

下面上代碼：

import urllib.request
import re

#獲得url的html 源碼格式，其中使用了一個通過修改User-Agent實現了隱藏
def open_url(url):
    req = urllib.request.Request(url)
    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36')
    page = urllib.request.urlopen(req)
    html = page.read().decode('utf-8') #二進制的utf-8要解碼得到html代碼（Unicode）
    return html


#寫正則表達式，獲得html代碼
def get_image(html):
    p = r'<img class="BDE_Image" src="([^"]+\.jpg)"' #正則表達式 [^]中的^是取反的意思
    temp = re.findall(p,html)
    i = 0
    page = 'C:/Users/lenovo/Desktop/mm/'
    for each in temp:
        i += 1
        file = open(page+str(i)+'.jpg','wb')
        each = urllib.request.urlopen(each).read()   #將圖片鏈接讀出來寫入文件中
        file.write(each)
        file.close()
        
    
def main(url):
    get_image(open_url(url))

#規定只有直接運行這個模塊才能執行主程序
if __name__ == '__main__':
    url = 'https://tieba.baidu.com/p/5177270774' 
    main(url)

下面是爬取結果：

當然，這個爬蟲是不完善的，除了四張美女圖片外還多了一些慕名奇妙的圖片，但是總的來說還是爬到了美女的圖片的。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 原創:Python爬蟲實戰之爬取美女照片教你分分鍾學會用python爬蟲框架Scrapy爬取心目中的女神教你分分鍾學會用python爬蟲框架Scrapy爬取心目中的女神 python爬取照片（失敗）用python爬取app照片 python3爬取女神圖片，破解盜鏈問題 python爬蟲（爬取段子） Python爬蟲-爬取古詩 python爬蟲之小說爬取 python爬蟲（爬取視頻）