原文:爬虫再探实战(五)———爬取APP数据——超级课程表【一】

关于爬虫,开始以为只能爬取网页数据,后来知道APP也能抓取。于是,在学校利用空闲时间,耗时两周实现了数据的抓取和简单的数据分析。 目标,抓取超级课程表XX大学 其实是我们大学啦。。。 学生 条发帖信息。思路如下: STEP :为我们的爬虫找到入口 APP请求数据,也是通过网络协议,这样,我们就抓包来定位入口,这里我用的是fiddler。关于设置手机和fiddler的关联,请参考这篇文章。 找到登 ...

2016-07-28 12:57 1 16766 推荐指数:

查看详情

爬虫实战(五)———APP数据——超级课程表【二】——词频分析

    上一篇已经将数据抓到手了,那么来分析一下吧。这里是用python简单处理数据,之后用EXCEL 作图,没错,,,还是EXCEL。其实分析这些数据有更好的工具,比如R。。。不过目前不会啊,就先EXCEL凑活着用吧。     这里一共分析了三个方面:TOP10 word;时间与发帖量的关系 ...

Thu Jul 28 21:29:00 CST 2016 0 1674
爬虫实战(三)———动态加载页面——selenium

    自学python爬虫也快半年了,在目前看来,我面临着三个待解决的爬虫技术方面的问题:动态加载,多线程并发抓取,模拟登陆。目前正在不断学习相关知识。下面简单写一下用selenium处理动态加载页面相关的知识。目标——抓取页面所有的高考录取分数信息。     对于动态加载,开始的时候是看到 ...

Sat Jul 23 07:01:00 CST 2016 6 21358
爬虫实战(一)——智联招聘职位信息

  本人呢,算是学统计的,就想着一下智联的统计岗位信息,嗯,岗位很强势。。。   这里用了requests,bs4进行抓取与解析,数据存入mysql数据库。代码比较乱,先凑和着看,有时间整理吧。。。 import requests from bs4 import ...

Sun Jul 10 19:00:00 CST 2016 3 5484
爬虫实战(四)———动态加载页面——请求json

    还是上次的那个网站,就是它.现在尝试用另一种办法——直接请求json文件,来获取要抓取的信息。     第一步,检查元素,看图如下:     过滤出JS文件,并找出包含要抓取信息的js ...

Sat Jul 23 08:39:00 CST 2016 2 9908
学校教务系统的课程表

课程作业需要实现一个课程表,我负责完成学校的教务系统中课程表的导入工作。 需要解决两个问题,第一个是教务系统访问课程表所在url时,会被告知需要先加载某框架,这让我很困扰,不知道如何用urlopen去解决这个问题;第二个问题是,不同的课程对应的课时是不一样的,意味着显示的时候rowspan值 ...

Thu Mar 12 00:15:00 CST 2020 0 889
我在 超级课程表 实习的那个月

离开公司已经十天,前段时间一直忙于准备考试,如今剩下最后一科,暂时缓一缓,写一下实习总结。 超级课程表,相信90后的大学生都听说过这个应用,这是一个十分优秀的应用,如果说全国每三位大学生就有一位在用超级课程表真的不过分,事实确实如此,产品和推广运营都做得十分到位。同时,在公司实习的一个月 ...

Sat Jun 20 06:23:00 CST 2015 6 2220
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM