Python：爬取一个可下载的PDF链接并保存为本地pdf文件

本文转载自查看原文 2021-04-09 17:52 766 爬虫

问题：网页http://gk.chengdu.gov.cn/govInfo/detail.action?id=2653973&tn=2中有一个PDF需要下载，开发者模式下该PDF的链接为http://gk.chengdu.gov.cn/uploadfiles/07180246020404/2020061116272871.pdf，如何下载该PDF保存为本地文件文件？

1）进入scrapy shell

scrapy shell

2）爬取该PDF所在的网页URL

shell模式下用方法fetch

 fetch('http://gk.chengdu.gov.cn/govInfo/detail.action?id=2653973&tn=2')

爬取到网页内容全部保存在了response中

3）通过XPath提取PDF的链接

In [5]: response.xpath('.//a[starts-with(@class,"ke")]/@href').extract()[0]
Out[5]: 'http://gk.chengdu.gov.cn/uploadfiles/07180246020404/2020061116272871.pdf'

4）通过fetch请求该URL，得到response，PDF内容就都保存在了该response中，通过response.body提取

with open('abc.pdf','wb')as f:
    f.write(response.body)

5）这样内容就写入了PDF文件abc.pdf中

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Python | 一人之下漫画爬取并保存为pdf文件使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题) 使用selenium + Chrome爬取某网站乌云公开漏洞文章并保存为pdf文件爬取博主的所有文章并保存为PDF文件 HTML网页保存为PDF文件如何将网页保存为PDF文件 Python抓取网页并保存为PDF photoshop 修改pdf文件并保存为pdf Github上的md文件查看后下载PDF文档方法(将HTML文件保存为PDF格式) 爬取某网站景区列表并保存为csv文件