python3下scrapy爬蟲(第三卷:初步抓取網頁內容之抓取網頁里的指定數據）

本文轉載自查看原文 2018-01-31 12:38 4405

上一卷中我們抓取了網頁的所有內容，現在我們抓取下網頁的圖片名稱以及連接

現在我再新建個爬蟲文件，名稱設置為crawler2

做爬蟲的朋友應該知道，網頁里的數據都是用文本或者塊級標簽包裹着的，scrapy框架里自帶標簽選擇器HtmlXPathSelector,具體的使用規則可以查閱一下我就不介紹了

我們現在要爬取的內容是網頁的圖片標題，以及網頁的圖片鏈接，所以我們需要在網站瀏覽器的控制台上查看標簽內容屬性

在控制台上我們發現：

我們所要抓取的內容在類名為showlist的div下的li標簽下

所以我們先獲取下頁面的指定LI標簽

先看下打印結果：

內容哪去了不要慌這個選擇器打印的結果沒問題

下面進行下代碼修改，獲取LI里的內容，實現由父找子的過程

這個extract()函數是我一般用來獲取標簽

看下結果

一組LI里有好多內容，並不是一一對應看起來不方便，由此可見個做網站的前端是直接一個LI里封裝多個圖片的塊級元素

看的不舒服來修改下代碼，一個LI里有七個為了保證數據的准確性每一個父級LI元素我都設定一個編號

看下代碼

來看下結果：

縱然文字不健康，但是數據的展現依舊清晰可見

現在圖片的連接有了我們可以根據鏈接來下載圖片那么我們使用urlretrieve函數，我們在當前爬蟲的文件夾中與SPIDER文件同級建立一個IMG文件夾

來看下代碼：

其實就像個公式一樣讀取公式+存儲公式就能完成圖片的下載：來現在看一下結果：

真的是豪無節操的網站我以后不會再爬取它了

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python抓取網頁內容怎樣抓取網頁內容 [Python]網絡爬蟲（二）：利用urllib2通過指定的URL抓取網頁內容 Python簡單的抓取靜態網頁內容 Golang: 抓取網頁內容 php 網頁內容抓取 phpCURL抓取網頁內容 jsoup抓取網頁內容 JAVA使用Gecco爬蟲抓取網頁內容(附Demo) 網絡爬蟲Java實現抓取網頁內容