原文:Python爬虫入门教程 20-100 慕课网免费课程抓取

写在前面 美好的一天又开始了,今天咱继续爬取IT在线教育类网站,慕课网,这个平台的数据量并不是很多,所以爬取起来还是比较简单的 准备爬取 打开我们要爬取的页面,寻找分页点和查看是否是异步加载的数据。 进行了一些相应的分析,发现并没有异步数据,只需要模拟翻页就,在进行HTML的解析就可以获取数据了, 翻页数据如下,合计 页,在数据量上属于非常小的了。 编写代码 代码分为自动拼接URL,解析HTML, ...

2019-01-08 19:25 1 884 推荐指数:

查看详情

Python爬虫入门教程 19-100 51CTO学院IT技术课程抓取

写在前面 从今天开始的几篇文章,我将就国内目前比较主流的一些在线学习平台数据进行抓取,如果时间充足的情况下,会对他们进行一些简单的分析,好了,平台大概有51CTO学院,CSDN学院,网易云课堂,等平台,数据统一抓取到mongodb里面,如果对上述平台造成了困扰,请见谅,毕竟我就抓取那么一小 ...

Tue Jan 08 03:19:00 CST 2019 2 758
Python爬虫入门教程 21-100 网易云课堂课程数据抓取

写在前面 今天咱们抓取一下网易云课堂的课程数据,这个网站的数据量并不是很大,我们只需要使用requests就可以快速的抓取到这部分数据了。 你第一步要做的是打开全部课程的地址,找出爬虫规律, 地址如下: https://study.163.com/courses/ 我简单的看了一下,页面 ...

Wed Jan 09 18:13:00 CST 2019 2 1005
Python爬虫入门教程 22-100 CSDN学院课程数据抓取

1. CSDN学院课程数据-写在前面 今天又要抓取一个网站了,选择恐惧症使得我不知道该拿谁下手,找来找去,算了,还是抓取CSDN学院吧,CSDN学院的网站为 https://edu.csdn.net/courses 我看了一下这个网址,课程数量也不是很多,大概有 6000+ 门课程,数据量 ...

Thu Jan 10 16:20:00 CST 2019 0 669
Python爬虫入门教程 18-100 煎蛋XXOO图片抓取

写在前面 很高兴我这系列的文章写道第18篇了,今天写一个爬虫爱好者特别喜欢的网站煎蛋http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在不断的完善,反爬措施也很多,今天 ...

Sat Jan 05 00:58:00 CST 2019 0 795
Python爬虫入门教程 24-100 微医挂号医生数据抓取

1. 写在前面 今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的一些分析类的教程做准备。本篇文章主要使用的库为pyppeteer 和 pyquery 首先找到 医生列表页 ...

Tue Jan 15 21:23:00 CST 2019 4 1128
Python爬虫入门教程 35-100 知乎全站用户爬虫 scrapy

爬前叨叨 全站爬虫有时候做起来其实比较容易,因为规则相对容易建立起来,只需要做好反爬就可以了,今天咱们爬取知乎。继续使用scrapy当然对于这个小需求来说,使用scrapy确实用了牛刀,不过毕竟本博客这个系列到这个阶段需要不断使用scrapy进行过度,so,我写了一会就写完了。 你第一步找一个 ...

Mon Feb 18 17:43:00 CST 2019 0 1152
Python爬虫入门教程 34-100 掘金全站用户爬虫 scrapy

爬前叨叨 已经编写了33篇爬虫文章了,如果你按着一个个的实现,你的爬虫技术已经入门,从今天开始慢慢的就要写一些有分析价值的数据了,今天我选了一个《掘金》,我们去爬取一下他的全站用户数据。 爬取思路 获取全站用户,理论来说从1个用户作为切入点就可以,我们需要爬取用户的关注列表,从关注列表不断 ...

Fri Feb 15 16:09:00 CST 2019 4 747
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM