python3下scrapy爬蟲(第三卷:初步抓取網頁內容之抓取網頁里的指定數據)


上一卷中我們抓取了網頁的所有內容,現在我們抓取下網頁的圖片名稱以及連接 

現在我再新建個爬蟲文件,名稱設置為crawler2

做爬蟲的朋友應該知道,網頁里的數據都是用文本或者塊級標簽包裹着的,scrapy框架里自帶標簽選擇器HtmlXPathSelector,具體的使用規則可以查閱一下我就不介紹了

我們現在要爬取的內容是 網頁的圖片標題,以及網頁的圖片鏈接,所以我們需要在網站瀏覽器的控制台上查看標簽內容屬性

在控制台上我們發現:

我們所要抓取的內容在類名為showlist的div下的li標簽下

所以我們先獲取下頁面的指定LI標簽

先看下打印結果:

內容哪去了 不要慌這個選擇器打印的結果沒問題 

下面進行下代碼修改,獲取LI里的內容,實現由父找子的過程

 

這個extract()函數是我一般用來獲取標簽

看下結果

一組LI里有好多內容,並不是一一對應看起來不方便,由此可見個做網站的前端是直接一個LI里封裝多個圖片的塊級元素

看的不舒服 來修改下代碼 ,一個LI里有七個 為了保證數據的准確性 每一個父級LI元素我都設定一個編號

看下代碼

來看下結果:

縱然文字不健康,但是數據的展現依舊清晰可見

現在圖片的連接有了 我們可以根據鏈接來下載圖片 那么我們使用urlretrieve函數,我們在當前爬蟲的文件夾中與SPIDER文件同級建立一個IMG文件夾

來看下代碼:

其實就像個公式一樣 讀取公式+存儲公式就能完成圖片的下載:來現在看一下結果:

真的是豪無節操的網站 我以后不會再爬取它了 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM