原文:爬取博主的所有文章并保存为PDF文件

继续改进上一个项目,上次我们爬取了所有文章,但是保存为TXT文件,查看不方便,而且还无法保存文章中的代码和图片。 所以这次保存为PDF文件,方便查看。 需要的工具: wkhtmltopdf安装包,下载并安装到电脑上,可使用 pip安装 ,注意环境变量的配置。具体参见下面的资料。 pdfkit文件 whl文件 ,下载并安装到pycharm上。 注意安装whl文件时:最好吧把保存whl文件的文件夹的路 ...

2018-03-30 22:13 1 829 推荐指数:

查看详情

使用selenium + Chrome某网站乌云公开漏洞文章保存为pdf文件

目的:使用selenium + Chrome某网站指定类型的乌云公开漏洞文章,即在win10终端输入漏洞类型(如未授权),则所有该类型的漏洞文章,并把每个分页的数字作为文件夹名,来保存该分页下面的所有的漏洞文章。 总结:本例只是能简单的某一类型漏洞的所有文章,但不能多个类型漏洞 ...

Sun Aug 12 23:50:00 CST 2018 0 1438
Python | 一人之下漫画保存为pdf文件

最近在看腾讯视频的一人之下4『陈朵篇』,但是这一季只有12集,且已经完结了,对陈朵仍旧充满好奇的我,耐不住下一季了,所以嘻嘻 本文主人公: 36漫画网 因为这个网站的反措施做得还OK,值得表扬,所以我就不一一讲解了,因为这是一个非常简单的爬虫流程,图片还是懒加载,很容易找到。 直接 ...

Tue Dec 14 18:32:00 CST 2021 0 1295
所有文章保存到本地(.txt版)--python3.6

闲话: 一位前辈告诉我大学期间要好好维护自己的博客,在博客园发布很好,但是自己最好也保留一个备份。 正好最近在学习python,刚刚从py2转到py3,还有点不是很习惯,正想着多练习,于是萌生了这个想法——用爬虫保存自己的所有文章 在查了一些资料后,慢慢的有了思路。 正文: 有了上面 ...

Sat Mar 31 00:44:00 CST 2018 0 1365
某网站景区列表并保存为csv文件

网址:http://www.halehuo.com/jingqu.html 经过查看可以发现,该景区页面没有分页,不停的往下拉,页面会进行刷新显示后面的景区信息 通过使用浏览器调试器,发现该 ...

Thu Jan 10 21:55:00 CST 2019 0 655
python:所有文章的链接、标题和内容

我自己的博客为例:https://www.cnblogs.com/Mr-choa/ 1、获取所有文章的链接: 博客文章总共占两页,比如打开第一页:https://www.cnblogs.com/Mr-choa/default.html?page=1的HTML源文件 ...

Thu Apr 02 21:58:00 CST 2020 1 1512
6 微信搜索平台的微信文章保存为本地网页

基本框架参考 5 使用ip代理池糗事百科 其中,加载网页使用的方式: 编码网址的方式: 结果报出: http.client.InvalidURL: nonnumeric port: '60088'' 60088就是当时所用代理的端口号 ...

Fri Jul 20 01:09:00 CST 2018 0 803
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM