Python：爬取一個可下載的PDF鏈接並保存為本地pdf文件

本文轉載自查看原文 2021-04-09 17:52 766 爬蟲

問題：網頁http://gk.chengdu.gov.cn/govInfo/detail.action?id=2653973&tn=2中有一個PDF需要下載，開發者模式下該PDF的鏈接為http://gk.chengdu.gov.cn/uploadfiles/07180246020404/2020061116272871.pdf，如何下載該PDF保存為本地文件文件？

1）進入scrapy shell

scrapy shell

2）爬取該PDF所在的網頁URL

shell模式下用方法fetch

 fetch('http://gk.chengdu.gov.cn/govInfo/detail.action?id=2653973&tn=2')

爬取到網頁內容全部保存在了response中

3）通過XPath提取PDF的鏈接

In [5]: response.xpath('.//a[starts-with(@class,"ke")]/@href').extract()[0]
Out[5]: 'http://gk.chengdu.gov.cn/uploadfiles/07180246020404/2020061116272871.pdf'

4）通過fetch請求該URL，得到response，PDF內容就都保存在了該response中，通過response.body提取

with open('abc.pdf','wb')as f:
    f.write(response.body)

5）這樣內容就寫入了PDF文件abc.pdf中

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 爬取博主的所有文章並保存為PDF文件將爬取的網頁數據分別保存為csv和xls文件(Python）用python爬取網站文獻、新聞報道內容，並保存為文本 js基礎--將內存中的數據保存為文件下載到本地 js基礎--將內存中的數據保存為文件下載到本地 python入門訪問網站並將爬回來的數據保存為csv文件 Python列表：將多個列表合並成一個列表並保存為csv文件 R ggplot 圖片保存為 pdf 爬取編程常用詞匯，保存為Excel Python將數據保存為txt文件的方法