原文:python——关于简单爬取博客园班级成员发的博文的题目、发布人、阅读、评论,再存到csv文件中

因为老师要以班里每个人发的博客质量作为最后总成绩的评定的一部分,就要把班上所有同学发的博客都统计起来,可以用来评定的因素有:阅读 评论 推荐等,但因为今天只是做一个简单的爬取,推荐这个元素在班级博客中需要点开每一篇博文才能看到获取,就不爬取了,只爬取阅读和推荐,加上每篇博文的发布人和标题。 我先会放上代码,再逐条解释其含义及作用。 代码如下 其中爬取的网页是以我自己的班级为例 : 开头是将要用到的 ...

2019-09-26 20:55 6 161 推荐指数:

查看详情

Python爬虫实现统计博客园数量、阅读量、评论

如何使用 只需要将代码的headurl替换以下格式,其中你只需要改变以下链接的阴影部分,阴影部分为你的博客园链接。 原理 使用requests网页,使用BeautifulSoup解析网页,获取数据、对数据做了预处理,最后使用正则匹配,匹配出需要 ...

Thu Mar 12 02:39:00 CST 2020 3 1015
nodejs博客园

其实写这篇文章,我是很忐忑的,因为的内容就是博客园的,万一哪个顽皮的小伙伴拿去干坏事,我岂不成共犯了? 好了,进入主题。 首先,爬虫需要用到的模块有: express ejs superagent (nodejs里一个非常方便的客户端请求代理模块) cheerio ...

Thu Jan 19 19:08:00 CST 2017 11 925
Python新浪微评论数据,写入csv文件

因为新浪微网页版爬虫比较困难,故采取用手机网页端的方式 操作步骤如下: 1. 网页版登陆新浪微 2.打开m.weibo.cn 3.查找自己感兴趣的话题,获取对应的数据接口链接 4.获取cookies和headers 至于爬出来的数据有非中文的数据 ...

Thu Jul 20 07:42:00 CST 2017 19 5487
Python 爬虫入门——小项目实战(自动私信博客园某篇博客下的评论,随机发送一条笑话,完整代码在最后)

  之前写的都是针对爬虫过程遇到问题的解决方案,没怎么涉及到实际案例。这次,就以博客园为主题,写一个自动私信博客下的评论人员(在本篇留下的评论的同学也会被自动私信,如果不想被私信,同时又有问题,请私信我)。   1).确定监控的博客,这里以http://www.cnblogs.com ...

Thu Mar 03 23:43:00 CST 2016 61 3776
网络爬虫+HtmlAgilityPack+windows服务从博客园20万

1.前言 最新在公司做一个项目,需要一些文章类的数据,当时就想到了用网络爬虫去一些技术性的网站一些,当然我经常去的就是博客园,于是就有下面的这篇文章。 程序源码:CSDN下载地址 2.准备工作 我需要把我从博客园的数据,保存起来,最好的方式当然是保存到数据库中去了,好了我们先建一个 ...

Thu Aug 06 23:21:00 CST 2015 326 49768
博客园-自动发布工具

博客园-自动发布工具 1、介绍 该工具内置自动将本地的markdown文件通过metaWebBlog协议上传到博客园(也可以是其他支持该协议的博客网站),并内置图床功能,省去编写时上传图片的麻烦。该工具配合typora markdown编写工具是最佳组合。实时预览与数学公式及希腊字母 ...

Fri Aug 31 21:34:00 CST 2018 3 2240
Python数据并保存到csv文件

1、数据源 2、Python代码 import requests from lxml import etree import csv url = 'http://211.103.175.222:5080/zentaopms/www/index.php?m ...

Wed Dec 22 01:05:00 CST 2021 0 1527
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM