原文:Python爬虫实现统计博客园博文数量、阅读量、评论数

如何使用 只需要将代码中的headurl替换以下格式,其中你只需要改变以下链接的阴影部分,阴影部分为你的博客园链接。 原理 使用requests爬取网页,再使用BeautifulSoup解析网页,获取数据 对数据做了预处理,最后使用正则匹配,匹配出需要的数据。 最后的数据使用一个大字典存储。 爬取网页 爬取网页这里做了异常处理。 解析网页 统计数据 源码 演示结果: ...

2020-03-11 18:39 3 1015 推荐指数:

查看详情

Python 爬虫入门——小项目实战(自动私信博客园某篇博客下的评论人,随机发送一条笑话,完整代码在最后)

  之前写的都是针对爬虫过程中遇到问题的解决方案,没怎么涉及到实际案例。这次,就以博客园为主题,写一个自动私信博客下的评论人员(在本篇留下的评论的同学也会被自动私信,如果不想被私信,同时又有问题,请私信我)。   1).确定监控的博客,这里以http://www.cnblogs.com ...

Thu Mar 03 23:43:00 CST 2016 61 3776
python——关于简单爬取博客园班级成员发的的题目、发布人、阅读评论,再存到csv文件中

因为老师要以班里每个人发的博客质量作为最后总成绩的评定的一部分,就要把班上所有同学发的博客都统计起来,可以用来评定的因素有:阅读评论、推荐等,但因为今天只是做一个简单的爬取,推荐这个元素在班级博客中需要点开每一篇文才能看到获取,就不爬取了,只爬取阅读和推荐,加上每篇的发布人和标题 ...

Fri Sep 27 04:55:00 CST 2019 6 161
博客园爬虫案例效果

置顶随笔 [置顶]Linux企业运维人员最常用150个命令汇总 2017年12月8日 Shell编程基础篇-下 2017年12月7日 memcached 缓存数据库应用实践 2017年12月6 ...

Sat Dec 09 05:45:00 CST 2017 4 17597
.net core 实现简单爬虫—抓取博客园列表

一.介绍一个Http请求框架HttpCode.Core HttpCode.Core 源自于HttpCode(传送门),不同的是 HttpCode.Core是基于.net standard 2.0实现的,移除了HttpCode与windows相耦合的api,且修改了异步实现,其余特性完全 ...

Tue Sep 05 17:49:00 CST 2017 11 5520
如何刷博客园阅读

点击我前往Github查看源代码 别忘记star 本项目github地址:https://github.com/wangqifan/ZhiHu 博客园是如何记录阅读的? 阅读一篇文章,如果刷新页面,阅读并不会增加。博客园是如何来计算阅读 ...

Fri Feb 17 20:59:00 CST 2017 1 3599
网络爬虫+HtmlAgilityPack+windows服务从博客园爬取20万

1.前言 最新在公司做一个项目,需要一些文章类的数据,当时就想到了用网络爬虫去一些技术性的网站爬一些,当然我经常去的就是博客园,于是就有下面的这篇文章。 程序源码:CSDN下载地址 2.准备工作 我需要把我从博客园爬取的数据,保存起来,最好的方式当然是保存到数据库中去了,好了我们先建一个 ...

Thu Aug 06 23:21:00 CST 2015 326 49768
博客园-自动发布工具

博客园-自动发布工具 1、介绍 该工具内置自动将本地的markdown文件通过metaWebBlog协议上传到博客园(也可以是其他支持该协议的博客网站),并内置图床功能,省去编写时上传图片的麻烦。该工具配合typora markdown编写工具是最佳组合。实时预览与数学公式及希腊字母 ...

Fri Aug 31 21:34:00 CST 2018 3 2240
 
粤ICP备18138465号  © 2018-2026 CODEPRJ.COM