一、scrapy shell
1、安裝pip install Jupyter
2、在pycharm中的啟動命令: scrapy shell
注:啟動后關鍵字高亮顯示
3、查看response
執行scrapy shell http://www.521609.com,查看response
二、Scrapyshell 使用細節
注:調用:scrapy shell https://www.xxx.com/
1、Scrapyshell 終端是一個交互終端
我們可以在未啟動spider的情況下嘗試及調試代碼,也可以用來測試XPath或CSS表達式,查看他們的工作方式,方便我們爬取的網頁中提取的數據;
2、Jupyter
如果安裝了 Jupyter ,Scrapy終端將使用 Jupyter (替代標准Python終端)。 Jupyter 終端與其他相比更為強大,提供智能的自動補全,高亮輸出,及其他特性。推薦安裝Jupyter;
3、response
當shell載入后,將得到一個包含response數據的本地 response 變量,輸入 response.body將輸出response的包體,輸出 response.headers 可以看到response的響應頭;
4、response.selector
輸入 response.selector 時, 將獲取到一個response 初始化的類 Selector 的對象,此時可以通過使用 response.selector.xpath()或response.selector.css() 來對 response 進行查詢;
5、執行命令
1)scrapy shell http://www.ichong123.com/pics/
2)執行:li_list = response.xpath('//ul[@class="conlist cf"]/li')
3)執行:len(li_list) 證明有數據
4)執行:li_list[0].xpath('.//img/@src').extract_first()得到圖片
5)執行:li_list[0].xpath('.//a/text()').extract()[0]得到圖片名字
以上是Scrapyshell 的基本使用,謝謝關注!!!
歡迎關注小婷兒的博客:
csdn:https://blog.csdn.net/u010986753
博客園:http://www.cnblogs.com/xxtalhr/
有問題請在博客下留言或加QQ群:483766429 或聯系作者本人 QQ :87605025
OCP培訓說明連接:https://mp.weixin.qq.com/s/2cymJ4xiBPtTaHu16HkiuA
OCM培訓說明連接:https://mp.weixin.qq.com/s/7-R6Cz8RcJKduVv6YlAxJA
小婷兒的python正在成長中,其中還有很多不足之處,隨着學習和工作的深入,會對以往的博客內容逐步改進和完善噠。
小婷兒的python正在成長中,其中還有很多不足之處,隨着學習和工作的深入,會對以往的博客內容逐步改進和完善噠。
小婷兒的python正在成長中,其中還有很多不足之處,隨着學習和工作的深入,會對以往的博客內容逐步改進和完善噠。
重要的事說三遍。。。。。。