原文:python 爬虫抓取 MOOC 中国课程的讨论区内容

一:selenium 库 selenium 每次模拟浏览器打开页面,xpath 匹配需要抓取的内容。可以,但是特别慢,相当慢。作为一个对技术有追求的爬虫菜鸡,狂补了一些爬虫知识。甚至看了 scrapy 框架,惊呆了,真棒 网上很多关于 selenium 库的详细介绍,这里略过此方法。 二: requests 库 编写一个爬虫小脚本,requests 库极为方便。接下来进入正题,如何抓取 MOOC ...

2019-09-24 13:18 0 799 推荐指数:

查看详情

爬虫抓取动态内容

一、简单动态页面爬取   我们之前进行的页面爬取工作都是基于静态的页面。但是现在的很多页面都采用了动态页面,这些动态页面又有百分之七十是由javascript写的,因此我们了解如何从javascri ...

Tue Oct 31 05:23:00 CST 2017 0 3070
python】下载中国大学MOOC的视频

python】下载中国大学MOOC的视频 脚本目标:     输入课程id和cookie下载整个课程的视频文件,方便复习时候看 网站的反爬机制分析:     分析数据包的目的:找到获取m3u8文件的路径        1. 从第一步分析数据包开始,就感觉程序员一定是做了反爬 ...

Wed Jan 19 06:32:00 CST 2022 3 1025
Python爬虫抓取淘宝商品评论内容

作为一个资深吃货,网购各种零食是很频繁的,但是能否在浩瀚的商品库中找到合适的东西,就只能参考评论了!今天给大家分享用python做个抓取淘宝商品评论的小爬虫! 思路 我们就拿“德州扒鸡”做为参考目标吧~!如果想抓其他商品的话,自行更换目标即可!打开淘宝,搜索目标,随便点击 ...

Mon Jun 25 01:07:00 CST 2018 1 10415
Python3 爬虫】16_抓取腾讯视频评论内容

上一节我们已经知道如何使用Fiddler进行抓包分析,那么接下来我们开始完成一个简单的小例子 抓取腾讯视频的评论内容 首先我们打开腾讯视频的官网https://v.qq.com/ 我们打开【电视剧】这一栏,找到一部比较精彩的电视剧爬取一下,例如:我们就爬取【下一站,别离】这部 ...

Thu Apr 26 20:37:00 CST 2018 0 1168
Python爬虫入门教程 21-100 网易云课堂课程数据抓取

写在前面 今天咱们抓取一下网易云课堂的课程数据,这个网站的数据量并不是很大,我们只需要使用requests就可以快速的抓取到这部分数据了。 你第一步要做的是打开全部课程的地址,找出爬虫规律, 地址如下: https://study.163.com/courses/ 我简单的看了一下,页面 ...

Wed Jan 09 18:13:00 CST 2019 2 1005
Python爬虫入门教程 22-100 CSDN学院课程数据抓取

1. CSDN学院课程数据-写在前面 今天又要抓取一个网站了,选择恐惧症使得我不知道该拿谁下手,找来找去,算了,还是抓取CSDN学院吧,CSDN学院的网站为 https://edu.csdn.net/courses 我看了一下这个网址,课程数量也不是很多,大概有 6000+ 门课程,数据量 ...

Thu Jan 10 16:20:00 CST 2019 0 669
Python爬虫入门教程 19-100 51CTO学院IT技术课程抓取

写在前面 从今天开始的几篇文章,我将就国内目前比较主流的一些在线学习平台数据进行抓取,如果时间充足的情况下,会对他们进行一些简单的分析,好了,平台大概有51CTO学院,CSDN学院,网易云课堂,慕课网等平台,数据统一抓取到mongodb里面,如果对上述平台造成了困扰,请见谅,毕竟我就抓取那么一小 ...

Tue Jan 08 03:19:00 CST 2019 2 758
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM