python爬取當當網書籍信息


'''
url
http://book.dangdang.com/
請求方式
GET
請求頭
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36
請求參數

'''
#1.導入模塊
import requests

from lxml import html
etree=html.etree

#2.發送請求

response=requests.get(
    url="http://book.dangdang.com/",
    headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36"
    }
)
#處理響應

eroot=etree.HTML(response.text)

# print(response.text)

#使用Xpath爬取當當數據
#//li/a/@title  廣泛書名
#//li/a/img/@src 圖片

#推薦書籍的列表
#//div[@id="book_reco"]/ul/li/p/a/text() 規范書名
#//div[@id="book_reco"]/ul/li/p[@class="price"]  規范價格
#//div[@id="book_reco"]/ul/li/a/img/@src 書籍圖片

#//div[@class="over"]/ul/li/ul/li/a/@title 書名
#//div[@class="over"]/ul/li/ul/li/a/img/@src 照片
#//div[@class="over"]/ul/li/ul/li/p[@class="price"]/span[@class="rob"]價格

div_list=eroot.xpath('//div[@class="over"]/ul/li/ul/li')

for li in div_list:
    item={}
    #書名
    item["name"]=li.xpath('./a/@title')[0]
    #書籍價格
    item["price"]=li.xpath('./p[@class="price"]/span')[0]
    #照片連接
    item["img"]=li.xpath('./a/img/@src')[0]
    print(item)


print(eroot.xpath('//div[@class="over"]/ul/li/ul/li/a/@title')) 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM