Python文本爬蟲實戰


轉載請注明原文地址:http://www.cnblogs.com/ygj0930/p/7019950.html 

 

一:流程

目標:爬取目標網頁的圖片

1:獲取網頁源碼

2:用Python讀取源碼

3:使用正則表達式從網頁源碼提取圖片地址

4:根據圖片地址下載圖片

 

二:實現

1:源碼獲取

文本爬蟲,是在已有的文本內容中爬取需要的信息,這區別於網絡爬蟲。

由於被檢索的內容是現成的,因此,文本爬蟲又叫“半自動爬蟲”。

在本例中,我們以昵圖網首頁為目標網址,因此,我們先到昵圖網首頁,右鍵—>查看源代碼—>保存源碼到txt文件。

2:編寫代碼

#coding:utf8
import re
import requests

#1:讀取文本文件,存到一個變量中
f=open("src.txt","r+")
htmls=f.read()
f.close()

#2:使用正則表達式,從獨取出來的文本內容中進行提取
img_url=re.findall('<img src="(.*?)"',htmls,re.S)

#3:遍歷正則表達式的匹配結果,使用requests模塊功能連接圖片並通過文件寫操作把圖片保存下來
i=1;
for each in img_url:
    #連接到圖片
    img=requests.get(each)
    #創建圖片文件
    fp=open('img'+str(i)+'.jpg',"wb")
    #把鏈接到的圖片內容寫入文件
    fp.write(img.content)
    #關閉文件
    fp.close()
    i=i+1

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM