上一卷中我們抓取了網頁的所有內容,現在我們抓取下網頁的圖片名稱以及連接
現在我再新建個爬蟲文件,名稱設置為crawler2
做爬蟲的朋友應該知道,網頁里的數據都是用文本或者塊級標簽包裹着的,scrapy框架里自帶標簽選擇器HtmlXPathSelector,具體的使用規則可以查閱一下我就不介紹了
我們現在要爬取的內容是 網頁的圖片標題,以及網頁的圖片鏈接,所以我們需要在網站瀏覽器的控制台上查看標簽內容屬性
在控制台上我們發現:
我們所要抓取的內容在類名為showlist的div下的li標簽下
所以我們先獲取下頁面的指定LI標簽
先看下打印結果:
內容哪去了 不要慌這個選擇器打印的結果沒問題
下面進行下代碼修改,獲取LI里的內容,實現由父找子的過程
這個extract()函數是我一般用來獲取標簽
看下結果
一組LI里有好多內容,並不是一一對應看起來不方便,由此可見個做網站的前端是直接一個LI里封裝多個圖片的塊級元素
看的不舒服 來修改下代碼 ,一個LI里有七個 為了保證數據的准確性 每一個父級LI元素我都設定一個編號
看下代碼
來看下結果:
縱然文字不健康,但是數據的展現依舊清晰可見
現在圖片的連接有了 我們可以根據鏈接來下載圖片 那么我們使用urlretrieve函數,我們在當前爬蟲的文件夾中與SPIDER文件同級建立一個IMG文件夾
來看下代碼:
其實就像個公式一樣 讀取公式+存儲公式就能完成圖片的下載:來現在看一下結果:
真的是豪無節操的網站 我以后不會再爬取它了