Python文本爬蟲實戰

本文轉載自查看原文 2017-06-15 20:39 1497 R3 Python爬蟲

轉載請注明原文地址：http://www.cnblogs.com/ygj0930/p/7019950.html

一：流程

目標：爬取目標網頁的圖片

1：獲取網頁源碼

2：用Python讀取源碼

3：使用正則表達式從網頁源碼提取圖片地址

4：根據圖片地址下載圖片

二：實現

1：源碼獲取

文本爬蟲，是在已有的文本內容中爬取需要的信息，這區別於網絡爬蟲。

由於被檢索的內容是現成的，因此，文本爬蟲又叫“半自動爬蟲”。

在本例中，我們以昵圖網首頁為目標網址，因此，我們先到昵圖網首頁，右鍵—>查看源代碼—>保存源碼到txt文件。

2：編寫代碼

#coding:utf8
import re
import requests

#1：讀取文本文件，存到一個變量中
f=open("src.txt","r+")
htmls=f.read()
f.close()

#2:使用正則表達式，從獨取出來的文本內容中進行提取
img_url=re.findall('<img src="(.*?)"',htmls,re.S)

#3：遍歷正則表達式的匹配結果，使用requests模塊功能連接圖片並通過文件寫操作把圖片保存下來
i=1;
for each in img_url:
    #連接到圖片
    img=requests.get(each)
    #創建圖片文件
    fp=open('img'+str(i)+'.jpg',"wb")
    #把鏈接到的圖片內容寫入文件
    fp.write(img.content)
    #關閉文件
    fp.close()
    i=i+1

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python實戰：爬蟲的基礎 python實戰項目之爬蟲（一） python爬蟲實戰 python爬蟲實戰（八）--------知乎 Python爬蟲開發與項目實戰 Python3 網絡爬蟲開發實戰 python爬蟲實戰以及數據可視化 Python爬蟲實戰：批量下載網站圖片 python爬蟲實戰（二）--------千圖網高清圖 python爬蟲實戰之bilibili彈幕生成雲圖